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PRÉFACE DE L'AUTEUR À L’'ÉDITION FRANÇAISE 


Ce second volume paraît en même temps que le premier car, réunis 
sous un même titre, ces deux volumes constituent un tout. Les prin- 
cipes de base qui nous ont guidés dans la présentation du matériel 
ont déjà été exposées dans le chapitre d'introduction du premier 
volume. Pour ce second volume, traitant de la synthèse statistique 
optimale des systèmes informationnels, nous avons également cru 
bon de donner un chapitre d'introduction dans lequel est présentée 
une vue d'ensemble du problème. 

L'auteur sera très reconnaissant au lecteur pour toute remarque 
ou suggestion sur le contenu ou la présentation de la matière dans 
cette édition française de l'ouvrage. [1 tient également à remercier 
Anne Sokova et les collaborateurs de la rédaction française des 
Editions Mir du soin apporté au difficile travail de la traduction et 
de la préparation de cette édition des « Fondements théoriques de 
la radiotechnique statistique ». 


B. Lévine 


EXTRAIT DE LA PRÉFACE À L’'ÉDITION RUSSE DU SECOND 
VOLUME 


Le plan de cette monographie en deux volumes sur les fondements 
théoriques de la radiotechnique statistique dont la réalisation s’achè- 
ve par l'édition de ce second volume, quoique conçu il y a près de 
cinq ans, n'a pas subi de profonds remaniements. C’est pourquoi 
d’intéressants résultats obtenus par les mathématiciens et les radio- 
électriciens ces toutes dernières années n’ont pas pu être suffisamment 
éclairés ni dans le premier volume, consacré aux méthodes d’'ana- 
lyse, ni dans le second, exposant les méthodes de synthèse. Le cadre 
limité de ce volume et les délais imposés pour sa mise sous presse 
nous ont obligés soit d'omettre complètement, soit de nous limiter 
à un exposé très succinct des branches actuelles, quoiqu'encore 
insuffisamment élaborées, comme les méthodes non paramétriques, 
les systèmes adaptatifs et les équations différentielles stochastiques. 
Nous n'avons pas également étudié les méthodes modernes de recher- 
che des extréma des fonctionnelles se rapportant déjà à la program- 
mation mathématique. Nous nous sommes attachés essentiellement 
à éclairer la théorie paramétrique de la synthèse. Cette branche 
de la théorie statistique de la synthèse s’est extremement développée 
et peut déjà dans une certaine mesure être jugée classique. 

Ce volume est la seconde partie du cours professé par l’auteur 
depuis de nombreuses années aux étudiants préparant leur thèse. 
Bien que ce volume soit destiné tout comme le premier aux étudiants 
du 3° cycle, aux scientifiques, aux ingénieurs-chercheurs hautement 
qualifiés et aux mathématiciens travaillant dans l’industrie, nous 
estimons qu'il permettra également d'attirer de nouveaux adeptes 
à la radiotechnique statistique. 


INTRODUCTION 


FORMULATION GÉNÉRALE DU PROBLÈME DE LA 
SYNTHÈSE OPTIMALE 


Dans de nombreuses recherches scientifiques et applications 
techniques on rencontre un problème qu’on peut formuler sous la 
forme générale comme suit. Soient les résultats des observations 
(expériences, essais) fixés soit par un dispositif analogique sous la 
forme de la réalisation x(£) de dure finie d’un certain processus 
aléatoire. soit par un dispositif numérique sous la forme d’un ensem- 
ble fini de nombres x,, . .., x, qui sont des valeurs de certaines 
variables aléatoires. Supposons que la réalisation x (t) soit échantil- 
lonnée aux instants £,, . .., {, appartenant à l'intervalle d'observa- 
tion et que l’on obtienne ainsi un ensemble fini de nombres x; — 
= z(t;), i=1,..., n. Avec cette hypothèse supplémentaire les 
résultats des observations se présentent toujours sous la forme d’un 
vecteur de dimension finie 


X = (ri. ._. Th): 


c'est-à-dire par un point d’un certain sous-ensemble X de l’espace 
euclidien (espace des observations). La mesure probabiliste sur le 
sous-ensemble X est une densité de probabilité multidimensionnelle 
W (x), x € X définie d'une manière incomplète. On peut, par exemple 
savoir seulement que W (x) appartient à la classe des fonctions con- 
tinues (cas non paramétrique). Presque partout dans ce volume nous 
allons supposer que la densité de probabilité, donnée dans l’espace des 
observations, appartienne à la classe des fonctions W (x | Ÿ) pour 
laquelle on connaît la forme de la relation fonctionnelle, mais sur le 
paramètre vectoriel Ÿ on sait seulement qu'il est l’un des éléments 
du sous-ensemble © de l'espace euclidien des paramètres (cas para- 
métrique). 

Dans le cas paramétrique le chercheur désire de connaître la vraie 
valeur du paramètre inconnu Ÿ, l'information sur lequel se trouve 
contenue dans les résultats de l'observation x. Le problème de la 
synthèse optimale se ramène à la recherche de l'algorithme de trai- 
tement (transformation) des résultats des observations, conduisant 
à un choix optimal (en un certain sens) d’une décision relative à la 
valeur du paramètre inconnu. Toute décision établit une correspon- 
dance entre le point x de l’espace des observations X et le point 
y (x) de l’espace des décisions F. Chaque décision y (x), en tant que 
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fonction de l’échantillon observé ou fonctionnelle de la réalisation 
observée, est appelée statistique. 

Pour concrétiser la notion de décision optimale nous allons intro- 
duire la fonction de pertes II (y, Ÿ) tenant compte des conséquences du 
choix de la décision, et le critère de qualité qui est la valeur moyenne 
de la fonction de pertes sur l’espace des observations, c'est-à-dire 
la grandeur 


r (y, 9) = À lv Go), 81 W (x 18) dx, 

X 
appelée risque conditionnel. La décision optimale y* (x) correspond 
au minimum du risque conditionnel pour une classe donnée de fonc- 
tions y (x) pour Ÿ fixé. Autrement dit, pour une suite assez longue 
d'observations, la décision optimale y* (x) assure les pertes moyennes 
minimales par rapport à celles qui apparaissent lorsque l’on adopte 
toute autre décision y (x). 

On obtient un critère de qualité quelque peu différent en chan- 
geant de point de vue sur la nature du paramètre inconnu Ÿ. Au cours 
des observations on suppose ce paramètre aléatoire dont la densité 
de probabilité a priori w (Ÿ) donnée sur l’espace 6 soit entièrement 
connue. On trouve alors la décision optimale en minimisant le risque 
moyen, c’est-à-dire la moyenne du risque conditionnel sur l’espace des 
paramètres 


R (= (r(v, 0) w (0) 48 = À | Tiv(m, 01 W(x 18) dx de. 


Oo X 


La décision obtenue ainsi est appelée décision de Bayes et la valeur 
minimale Rhin, risque de Bayes. Une partie importante de ce volu- 
me est consacrée à la synthèse des algorithmes, optimaux dans le 
sens du critère de qualité de Bayes (minimum du risque moyen). 

Souvent on peut obtenir le risque de Bayes même si pour adopter 
une décision y on utilise non pas chaque élément de l’échantil- 
lon x = (x, ..., x,), mais un certain ensemble de statistiques 
£1 (X), - . ., £g, (x) dont le nombre r est inférieur à la taille r de 
l'échantillon observé. Ceci signifie que la fixation de chacun des 
éléments de l’échantillon fournit une information superflue du point 
de vue de la décision optimale et que pour cette décision il suffit 
d’avoir au lieu du vecteur x à z dimensions, un vecteur dit des statis- 
tiques suffisantes de dimension r << n. Il est intéressant de trouver 
le vecteur des statistiques suffisantes de la dimension r la plus petite 
possible pour laquelle la propriété de suffisance se conserve encore. 

Cette courte introduction suffit pour caractériser le problème 
de la synthèse optimale. Vu le caractère purement appliqué de cet 
ouvrage, nous étudions ensuite en détail les méthodes mathématiques 
de solution de ce problème, séparément pour chacune des deux sortes 
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de déductions statistiques (déci$ions): la vérification des hypothèses 
statistiques (premier chapitre) et les estimations des paramètres (second 
chapitre). 

La vérification des hypothèses statistiques revient au choix d'une 
décision à la base des résultats des observations, notamment, adopter 
une hypothèse (d’un certain ensemble d’hypothèses) sur les états 
possibles de l’effet étudié. A chaque état on peut faire correspondre 
un certain nombre s,, # — 1, ..., m, l’ensemble de ces nombres 
sera alors un cas particulier de l’espace des paramètres avec un nom- 
bre fini de points. Considérés comme événements aléatoires, ces 
états forment un groupe complet d'événements. La stratégie attribue 
a chacun des résultats des observations x l’une des décisions y;. 
i — 1, ..., m selon laquelle l’état s; est vrai 


y =Y, xEX;, i-=1,...,m, 


où X,,..., Xm sont des sous-ensembles disjoints de l'espace des 
observations. La fonction de pertes est donnée par une matrice carrée 
m x m dont les éléments 


[ ;x = I] (s;, Yu) 


sont les coûts de la décision erronée y,, lorsque l'état vrai est s;. 
Le critère de qualité de la stratégie est le risque conditionnel (somme 
pondérée des coûts pour une colonne donnée de la matrice, compte 
tenu de la fréquence d'apparition de chacun d'eux dans une longue 
suite d'observations) ou bien le risque moyen (la moyenne du risque 
conditionnel correspondant à la distribution a priori discrète des 
états). 

Dans les problèmes relatifs aux estimations des paramètres 
l'espace des paramètres est un continuum. L'espace des décisions F 
est, par conséquent, également un continuum, et chaque point de cet 


espace représente une certaine estimation Ÿ du paramètre inconnu Ÿ 
Ÿ = y (x). 


Chacune des méthodes mentionnées d’inférence statistique est 
basée sur la représentation des résultats des observations par un vec- 
teur x de dimension finie. Les décisions y (x), en tant que fonctions 
de ce vecteur appelées statistiques, sont des événements aléatoires 
(pour la vérification des hypothèses) ou des variables aléatoires 
(lors de l'estimation des paramètres). En ce sens la vérification des 
hypothèses statistiques peut être appelée statistique des événements 
aléatoires, et l'estimation des paramètres, statistique des variables 
aléatoires. 

L’échantillonnage des observations peut parfois conduire à une 
perte partielle d’information. C’est pourquoi il est très intéressant 
d’étudier les décisions sous la forme de fonctionnelles y [x (t)] d’une 
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réalisation du processus aléatoire, qui sont des statistiques du proces- 
sus aléatoire. Les chapitres trois et quatre sont consacrés à cette 
question. 

Les trois derniers chapitres illustrent abondamment les applica- 
tions des méthodes de synthèse statistique optimale aux problèé- 
mes de la détection et de la discrimination des signaux noyés dans 
les bruits (vérification des hypothèses statistiques), aux problèmes 
d’extraction des signaux noyés dans les bruits (estimation des para- 
mètres) ainsi qu'aux problèmes de la classification des ensembles 
(reconnaissance des images). 


Chapitre premier 


VÉRIFICATION DES HYPOTHÈSES STATISTIQUES 


1.1. CHOIX D'UNE DÉCISION 


1.1.1. Données de base et formulation du problème. Soit 
S9» + + +, Sm l'ensemble d'états possibles (effets de la nature, causes 
donnant lieu à l'apparition des événements, etc.) représentant un 


groupe complet et soient po, ..., Pm (È Pr = 1) les probabilités 


a priori de ces états. Considérons |’ ensemble des résultats des obser- 
vations Zi, ..., Z, (valeurs échantillonnées), fonction de l’état 
réel, et soit W, (x;, ..., x, | sx) la répartition conditionnelle des 
valeurs échantillonnées, correspondant à l’état s,, 4 — 0,1, ..., m. 

Soient : un ensemble des décisions Yo, . . ., Ym relatives à l’auten- 
ticité des états, les stratégies à (y; | &1, - . ., z,) attribuant à chacun 
des résultats éventuels des observations z,, . .., x, l’une des déci- 
sions Vs, à = 0, 1, ..., m, ainsi que la fonction de pertes II (sy, y») 
tenant compte des conséquences de la stratégie, et enfin le critère 
de qualité f {IX} de la stratégie, lié à la fonction de pertes. 

Le problème que nous allons examiner en détail se trouve à la 
base de nombreux problèmes techniques et scientifiques. Il peut se 
formuler comme suit : connaissant les répartitions p,, W, (x, ... 
- ++» Zn | Sk), l’ensemble des décisions y;, la fonction de pertes II 
et le critère de qualité ÿ, trouver la stratégie à d'utilisation des résul- 
tats des observations xz;, . .., z,, la meilleure vis-à-vis du critère 
adopté. Cette stratégie est une variante de la déduction statistique 
obtenue d’après les résultats des observations sur les aspects inconnus 
du phénomène étudié, plus exactement sur le modèle mathématique 
adopté, lorsque l'information dont nous disposons sur les caracté- 
ristiques de ce modèle est incomplète. 

Avant d'étudier plus en détail les notions introduites et de for- 
muler le problème du choix d’une décision nous allons donner un 
exemple très simple. 

1.1.2. Transmission des communications binaires en présence 
des bruits. Soit un système se composant d'une source pouvant 
éventuellement transmettre deux communications « oui » et «non» 
transformées respectivement en signaux « 1 » et « 0 », d’une ligne 
de transmission dont les bruits peuvent transformer à tort un signal 
« 1 » en signal « 0 » et « 0 » en « 1 » et d’un récepteur reproduisant 
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les signaux déformés ou non. L'opérateur observant le signal à la 
sortie du récepteur doit pouvoir déchiffrer le message, c’est-à-dire 
déterminer d'après le signal reçu la communication trans- 
mise. 

Si les signaux transmis n'étaient pas soumis à des déformations, 
le signal reçu permettrait de dire sans erreur quelle communication 
a été envoyée. Par exemple, le signal « 1 » correspondrait toujours 
à la communication « oui », autrement dit, la probabilité a posteriori 
de la communication « oui » pour la réception du signal « 1 » serait 
alors égale à l’unité. Mais vu les déformations dues aux bruits du 
signal reçu, on ne peut dire en toute certitude quelle communication 
a réellement été transmise, c’est-à-dire qu'il peut se faire qu’on 
reçoit le signal « 1 », alors que c’est la communication « non » qui 
a été transmise, et le signal «0» pour la communication « oui ». 
J1 faut donc donner à l’opérateur à l’avance une règle lui permettant 
dans cette situation indéterminée d'agir en conséquence, sans se 
baser sur son intuition ou une appréciation subjective. 

Cet exemple, bien que très simple, contient tous les éléments du 
problème posé. Les communications « non » et « oui » sont deux états 
incompatibles s, et s, de la source. Les probabilités a priori de ces 
états po — P {«non»}, p, — P {«oui»}—1—p, déterminent la 
structure statistique de la source des communications, c'est-à-dire 
indiquent le pourcentage des communications « non » et « oui » dans 
un message. Les signaux « 1 » et « 0 » sont les résultats possibles 
des observations. Les probabilités conditionnelles de ces signaux 
P {0]s5}=1—-P {Also}, P{Is}—=1—P{0]s,} sont 
déterminées par les propriétés probabilistes des bruits de la ligne. 

Les grandeurs P {0 | so }, P {1 |s,} sont les probabilités pour 
que les signaux « 0 » et « 1 » ne soient pas déformées par les bruits, et 
P {1 |5s0}, P {0 |s}, les probabilités pour que « 0 » devienne « 1 » 
et « 1 » devienne « 0 ». Dans ce cas l’ensemble des décisions se compose 
de Yo et Y1, décisions sur la transmission des communications « non » 
et « oui » respectivement, et la stratégie indique à l'opérateur la 
décision à prendre lorsqu’il observe le signal « 1 » ou le signal « 0 ». 

Dans l'exemple considéré la fonction de pertes doit tenir compte 
des conséquences qu'entraînent les décisions erronées de l'opérateur 
et établir le « coût » Il, >> Ô d’une erreur de première espèce (un 
« non » authentique est interprété comme un «oui») et le « coùt » 
M,, > 0 pour une erreur de seconde espèce (un « oui » réellement 
transmis est interprété comme un « non »). En plus des pertes I1,;, 
Il, on aurait pu introduire les grandeurs des gains [5o, [l,, (pertes 
négatives), acquisitions dues aux décisions correctes, ou des dépen- 
ses pour des décisions correctes (à condition d’avoir [59 << Hoi et 
IL,, 11,5). Cependant parfois on se limite à l'introduction des pertes 
liées aux décisions erronées, supposant que les décisions correctes 
n’entraînent pas de pertes. 
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En qualité de critère guidant le choix d’une décision on peut 
utiliser la valeur moyenne des pertes liées aux décisions erronées, 
pondérée par les probabilités de leur apparition. Ainsi, conformé- 
ment à ce critère, des deux stratégies possibles on choisit celle pour 
laquelle la valeur moyenne des pertes est la plus petite. Calculons 
les pertes moyennes pour les deux stratégies. 

L'une des stratégies, Ô,, peut être formulée de la manière suivan- 
te: en observant le signal « 0 » il y a lieu d'adopter la décision Yo 
(par conséquent, en observant le signal « 4 » il y a lieu d'adopter la 
décision vi). Dans ce cas les probabilités des décisions erronées sont : 


P {erreur de 1° espèce} — P {y, | so} == poP {1 | so}, 
P {erreur de 2° espèce} — P {yo |} — p1P {0 |s;} 


et la valeur moyenne À, des pertes est 
Ro = HoipoP (1 | so} + IiopiP {0 | si}. (1.1) 


La seconde stratégie, ô,, peut se formuler comme suit : en obser- 
vant le signal « 0 » il y a lieu d'adopter la décision y, (par conséquent, 
en observant le signal « 1 » il y a lieu d’adopter la décision y). 
Dans ce cas les probabilités des décisions erronées sont 


P {erreur de 1"° espèce} = P {yo | so} — pol {0 | 5}, 
P {erreur de 2® espèce} — P {y; |s,} — p,P {1 |s} 
et la valeur moyenne R, des pertes est 
Ri = ToipoP {0 | so} + Mol {1 | si}. (1.2) 


Le critère de qualité adopté donne la préférence à la stratégie 
Ôo Si Ro << R;, c'est-à-dire lorsque 


Ro < 3 (io R)) (1.3 


Comme Ro -:- Ri = Ioipo + IioP1, en vertu de (1.1) et (1.3) on arri- 
ve à la condition suivante: 


1 
HoiPoP {1 | So} + TMiopiP {0 fs} <> (UoiPo+ Miopi). (1.4) 


Celle-ci étant satisfaite, on adopte la stratégie 6. 

En plus des probabilités conditionnelles d'erreurs données par 
les caractéristiques probabilistes des bruits dans la ligne, la formule 
(1.4) contient les probabilités a priori des communications et les 
valeurs des pertes. Il est parfois difficile de trouver ou de fixer les 
valeurs de po, Io:, I0. C’est là également le point faible du problème 
général mentionné au $ 1.1.1. Lorsqu'il n’y a aucune raison pour 
supposer que l'erreur de première espèce est nettement supérieure 
ou inférieure à l'erreur de seconde espèce, on prend les deux pertes 
To et To égales. Dans ce cas les valeurs des pertes moyennes sont 


14 VÉRIFICATION DES HYPOTHÈSES STATISTIQUES [CH. 1 


simplement proportionnelles à la probabilité d'erreur d'espèce 

quelconque. Le critère des pertes moyennes minimales devient alors 

le critère de fréquence minimale d'erreur. Lorsqu'on ne sait rien 

sur la structure statistique de la source de communication, il ne reste 

plus qu’à supposer que les communications « oui » et « non » sont 

transmises avec des probabilités égales, c’est-à-dire à poser: po — 
1 


= Pi = D 5 
Si Toy = ILo et Po = Pa = + , la condition (1.4) devient particu- 


lièrement simple, on a 


P{A]s}+P{01|s}<1 


P{{ls}<P{]|s)}. (1.5) 


La condition (1.5) signifie que la probabilité de déformation du 
signal « 0 » est inférieure à celle de reproduction correcte du signal 
« 1 » (autrement dit, la probabilité d'apparition d’un signal faux 
« 1 » serait inférieure à la probabilité de non-altération du signal 
authentique « 1 »). Les pertes moyennes dans ce cas sont Ro << 0,5 
alors que pour la stratégie 6, sous la condition (1.5) les pertes moyen- 
nes sont À; > 0,5 *). | 

1.1.3. Hypothèses simples et hypothèses composites. Arrêtons- 
nous sur les notions de base introduites au $ 1.1.1 pour le problème 
général du choix des décisions. Parfois ce problème peut se formuler 
en termes de la théorie de la vérification des hypothèses statistiques. 
Le choix d'une décision consiste alors à adopter ou à rejeter l’hypo- 
thèse concernant les états possibles de l'effet étudié d’après les résul- 
tats des observations. Ainsi, par exemple, en observant à la sortie d’un 
récepteur un signal noyé dans les bruits, on peut le prendre pour un 
bruit (état so) ou pour un mélange du signal et du bruit (état s;). 
Le choix d’une décision consiste à adopter ou à rejeter l’hypothèse 
H, selon laquelle l'effet observé ne se rapporte qu'au bruit. L'hypo- 
thèse contraire Æ, selon laquelle l'effet observé se rapporte au 
mélange du signal et du bruit est une alternative. 

Une classe d’hypothèses est dite simple si elle ne contient qu'une 
seule hypothèse et composite si le nombre d'hypothèses est égal 
ou supérieur à deux. Dans l'exemple ci-dessus l'hypothèse vérifiée 


ou 


*) Notons qu'il aurait été possible de suivre les stratégies suivantes: 
Ô3 — adopter toujours la décision yo, ou 6, — adopter toujours la décision y.. 
Les valeurs des pertes moyennes pour ces décisions sont respectivement R3 = 


= P1llio et Re =Polloi: Si Moi = io = 1 et po—p; = -, chacune de ces stra- 


= 


tégies est plus mauvaise que 6 car on a R3 = R4, = — , mais meilleure que 


to| 


ô; car M > +. 
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et l’alternative sont simples. Dans le problème de la détection d'un 
des signaux d’un ensemble, noyés dans le bruit (états s,, . . ., sm), 
la classe des alternatives est composite. Dans une hypothèse compo- 
site le nombre d'états peut être tant fini qu'infini; on parle 
alors d'ensemble dénombrable (discret) ou d’un continuum d'états. 
Les états possibles sont souvent représentés par des points dans 
un espace multidimensionnel. Si l'ensemble des états possibles 
forme un continuum, la distribution a priori des probabilités des 
états est caractérisée par la densité de probabilité w, (s) déterminée 
sur cet ensemble. 

1.1.4. Echantillon. Comme nous l'avons noté dans le premier 
volume, à toute expérience aléatoire on peut faire correspondre une 
certaine variable aléatoire £ dont les valeurs possibles sont les résul- 
tats des observations fixés après cette expérience aléatoire. Ainsi, 
le résultat d’une suite de nr expériences aléatoires est représenté par 
n valeurs éventuelles x;, . . ., x, de la variable aléatoire £. Chacune 
de ces valeurs est dite valeur échantillonnée et leur ensemble s'appelle 
échantillon. Le nombre nr de valeurs échantillonnées, ou le nombre 
d'éléments de l'échantillon, est généralement appelé dimension, ou 
taille, de l'échantillon. Supposons que la distribution de la variable 
aléatoire Ë soit caractérisée par la fonction de répartition F; (x) 
ou la densité de probabilité w, (x). On dit alors que l'échantillon 
Lis + - -> Zn à été obtenu à partir de la distribution F, (x) ou 
w, (x). La loi de distribution peut dépendre de l’état s, de l'effet 
étudié. Pour souligner le fait que l'échantillon dépend de l’état s, 
on désigne la loi de distribution à partir de laquelle l'échantillon 
a été obtenu par les symboles F, (x | s,) ou wi (x | 51). 

Chaque échantillon, c’est-à-dire chaque ensemble de r nombres, 
correspond à un point de l’espace à rz dimensions, ou à un vecteur à n 
dimensions X = (z;, ..., z,). Si l’on considère (ne serait-ce qu’en 
pensée) toutes les suites possibles d'expériences, l’ensemble des 
échantillons possibles remplit un certain domaine de l'espace à n 
dimensions mentionné. Ce domaine est appellé espace des échantillons. 
La densité de probabilité obtenue à partir de la distribution w, (x |5s) 
avec les éléments indépendants x, ..., x, est égale à 


ñn 


Wa (ti cs Zn s)= [I wi (zx |s). (4.6) 


car dans ce cas la densité de probabilité conjointe des valeurs échan- 
tillonnées est égale au produit des densités de probabilité des éléments 
de l'échantillon. 

Pour un échantillon pris dans la distribution discrète p;,; — 
= P{r=z|s}, j =1,2,...,n,0ona 


P{x=2z:, .., = an|s= Î] pris. (1.6”) 
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La distribution conjointe des valeurs échantillonnées est appelée 
fonction de vraisemblance de l'échantillon. La fonction de vraisemblan- 
ce définie dans l’espace des échantillons donne la fréquence d’appari- 
tion des points dans un certain domaine de cet espace et détermine 
la densité de probabilité de l’apparition d’un point quelconque. 

Ainsi, on comprend un échantillon comme un ensemble de varia- 
bles aléatoires, ou comme une variable aléatoire multidimensionnel- 
le (vecteur aléatoire), caractérisée par une certaine distribution appe- 
lée fonction de vraisemblance *). 

Généralisant la notion d’échantillon, on peut supposer que les 
résultats des observations sont les valeurs non pas d’une seule varia- 
ble aléatoire, mais d’un ensemble de variables aléatoires indé- 
pendantes, liées par la densité de probabilité à n dimensions 
W, (x, ..., x, |s) dont la forme est donnée par l’état s de 
l'effet étudié. 

Jusqu'à présent nous avons supposé que lorsque l’on prenait les 
valeurs échantillonnées zx,, . .., x,, l’état s, de l'effet étudié ne 
changeait pas. Dans l’exemple de la détection ceci signifie que l'effet 
observé est lié soit seulement au bruit, soit au mélange du signal et 
du bruit. Cependant, il peut se faire que l’état de l’objet étudié chan- 
ge une ou plusieurs fois durant le temps d'extraction des valeurs 
échantillonnées. Par exemple, un signal noyé dans les bruits appa- 
raît dans les limites de l’intervalle donné d'observation. L’échantil- 
lon est alors hétérogène, ses différentes parties appartenant à des dis- 
tributions différentes w, (x |s;), wi (x | si), etc. 

Enfin, il faut noter que, si le problème est posé comme mentionne 
ci-dessus, les déductions statistiques sont faites à partir d’un échan- 
tillon de dimension nr donnée. Parfois il est plus commode de ne pas 
fixer à l'avance le volume des expériences, mais de le trouver durant 
les observations, en décidant de continuer ou d'arrêter les observa- 
tions après chacune des expériences, après avoir soumis à l'analyse 
statistique les données obtenues à cet instant. 

1.1.5. Ensemble de décisions et choix d’une décision. L'ensemble 
des décisions Yo; ‘V1: + - «; Ym est une suite d'’assertions logiques 
déclarant vraie l’une des hypothèses relatives aux états 50, S1, . - ., Sm 
de l'effet étudié. La stratégie Ô établit une correspondance entre un 
ensemble de décisions et les résultats éventuels des observations, 
c'est-à-dire l’espace des échantillons **). Ceci signifie que l’espace 
des échantillons G doit être divisé en m -+- 1 domaines Gs, G1, . .. 


*) Notons qu’à l'opposé du premier volume où les variables aléatoires 
et les arguments des fonctions de répartition correspondantes étaient désignés 
par des symboles différents (grecs et latins), ici les éléments de l'échantillon 
et les arguments de la fonction de vraisemblance correspondante sont désignés 
par des symboles identiques, ce qui ne donne pas licu à identifier ces grandeurs. 

*+) Dans les ouvrages de mathématiques la stratégie est souvent appelée 
critère, où test. Nous utiliserons le terme de critère seulement lorsqu'il s’agit 
d'un critère de qualité de la stratégie. 
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» Gm disjoints, la stratégie établit alors la correspondance entre 
les décisions y, et les domaines G; (x;, . . ., æ:). Il est important de 
souligner que la stratégie doit être formulée avant l'observation. 

Une stratégie peut être déterministe (non randomisée), dans ce 
cas on fait toujours correspondre à un domaine G} (x, . .., x,) une 
certaine décision y, autrement dit, si l'échantillon observé se trouve 
dans le domaine G,; on adopte la décision y,, c’est-à-dire que l’on 
affirme l'authenticité de l'hypothèse suivant laquelle l'effet étudié 
se trouve dans l’état s,. Une stratégie peut être randomisée, dans ce 
cas pour des valeurs échantillonnées données z,, . .., x, on peut 
adopter une des décisions possibles conformément à une certaine 
distribution des probabilités. Cette distribution P {y, | (x, ... 

.» Zn) € G;} donne les probabilités conditionnelles des décisions 


pour un échantillon donné ox P {y |... m) EG} =1,j = 


— 0,1, ..., m). Pour une sratépie déterministe on a P {Ya Mérrrre 

: 2.) € G;} = 1 pour un seul # = j, cette probabilité étant nulle 
pour tous les autres À =£ j. Dans cet ouvrage nous ne parlerons que 
des stratégies déterministes. Cette limitation ne porte en aucun cas 
atteinte aux stratégies randomisées, présentant un grand intérêt 
et permettant parfois de simplifier l'analyse mathématique (voir, 
par exemple, [7}). 

1.1.6. Fonction de pertes et critère de qualité d’une stratégie. 
Vu la nature aléatoire des événements observés, l'utilisation d’une 
stratégie quelconque, établie à l'avance, est indubitablement liée 
à une éventualité de décision erronée. Il peut se faire que l’échantil- 
lon x, ..., z, se trouve dans le domaine G;, ceci donne lieu à la 
décision y, que le phénomène étudié se trouve à l’état s,, bien qu'en 
réalité l’échantillon en question soit lié à un autre état s;, j = k. Le 
fait que, dans une suite de décisions, il y en a qui sont correctes et 
d’autres erronées, est le coût inévitable d'une prise de décision basée 
sur une information incomplète. 

Les conséquences des décisions erronées peuvent être très diffé- 
rentes. Pour en tenir compte analytiquement on introduit une fonc- 
tion de pertes non négative faisant correspondre à chaque décision 
erronée, c’est-à-dire à chaque combinaison s;, y,, À = j, une perte 
[;, = I (s;, y:) > 0. De plus, on peut introduire les valeurs des 
gains (pertes négatives) acquis lorsque la décision se trouve être 
correcte ou les dépenses liées à des décisions correctes If,; — 
= [(s;, y5) << 1,4, À = j. Pour un état donnés; la valeur moyenne 
des pertes pour une stratégie donnée à (c’est-à-dire pour un mode de 
partition de l’espace des échantillons en domaines G; et d’établisse- 
ment de leur correspondance à un ensemble de décisions y) dans une 
suite suffisamment longue d'expériences, dont les résultats sont 
fixés par des échantillons de dimension n, est à peu près égale à la 
moyenne (espérance mathématique) de la fonction de pertes dans 


2—0682 
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l'espace des échantillons: 
rj= 21 Mir P {vals;} = 2 HP {(ti +. Zn) EGnfs;}, (1.7) 


où P {(x1, ..., zh) € G, | s;} est la probabilité conditionnelle pour 
l'échantillon (x:, . . ., x,) de tomber dans le domaine G; si en réalité 
c’est l’état s; qui a lieu. La moyenne conditionnelle r; pour un état 
donné s; est appelée fonction conditionnelle de risque. 

On aurait pu prendre la fonction conditionnelle de risque pour 
critère de qualité de la stratégie et considérer que la meilleure stra- 
tégie est celle qui rend minimale la grandeur à pour toutes les valeurs 
possibles de r;. Cependant, la propriété d’optimalité de la stra- 
tégie dépendrait alors de l'état s;. Pour un autre état s,, k Æ j, 
la stratégie minimisant r; peut ne pas minimiser r;. 

En prenant la moyenne de la fonction de risque sur tous les états 
possibles s; on obtient 

m 


R = 2 Pirj — à a Pin P {(ris -.., Zn) EGn|s;}, (1.5) 
j= j=0 k= 


où p; est la probabilité a priori de l’état s,. 

La moyenne de la fonction de pertes définie par (1.8), dépendant 
également de la stratégie et de la distribution des états, est appelée 
fonction de risque moyenne. Cette fonction peut être prise comme cri- 
tère de la qualité de la stratégie. Dans ce cas la stratégie optimale 
(pour le critère adopté) correspondra à la plus petite valeur de la fonc- 
tion moyenne de risque, étant donné la fonction de pertes, la dis- 
tribution des états et les probabilités conditionnelles des échantillons 
pour des états donnés. La stratégie optimale définit le mode (parmi 
la multitude possible) de partition de l'espace des échantillons 
en domaines disjoints G,, k — 0,1,..., m, qui. utilisé assez 
longtemps, assure des pertes moyennes minimales (pour les 
états possibles de l'effet étudié). 

La stratégie optimale, minimisant la fonction moyenne de risque 
est appelée stratégie de Bayes, et la valeur minimale correspondante 
de la fonction moyenne de risque est appelée risque de Bayes. 

La théorie exposée a un défaut important. Avant d'utiliser les 
résultats il faut disposer a priori d'une information assez importante 
non seulement sur les densités de probabilités conditionnelles des 
valeurs échantillonnées W, (x:, . .., z, | s;j), qui peuvent souvent 
être données avec assez de bien-fondé, mais également sur la fonction 
de pertes IL (s;, y:) et sur la distribution a priori des états. Si cette 
dernière n'est pas connue, pour établir le critère de qualité de la 
stratégie on ne peut utiliser que la fonction conditionnelle de risque 
r;, qui est une fonction de l'argument entier j donnant l'état s;. 

Soient r?; la valeur maximale de cette fonction pour la straté- 
gie Ô, et r%2 sa valeur maximale pour la stratégie Ô. On peut consi- 
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dérer que la meilleure des deux stratégies est celle pour laquelle la 
valeur maximale de la fonction conditionnelle de risque est la plus 
petite. Par exemple, si ri2 << rl, la stratégie 0, est meilleure que la 
stratégie Ô,. La stratégie optimale sera donc celle à laquelle corres- 
pond un minimum parmi les valeurs maximales des fonctions de 
risque conditionnelles. Cette stratégie est appelée stratégie du minimar. 

La stratégie du minimax nous donne la certitude que les pertes 
moyennes seront inférieures ou égales à une certaine valeur r*. 
Bien que dans de nombreux cas cette stratégie soit raisonnable, il 


Fig. 1.1. Application de la stratégie du minimax: 
a) acceptable; b) non acceptable (la stratégie 01 est meilleure que 6*) 


peut y avoir des cas où elle s'avère trop prudente. Il est alors préfé- 
rable d'utiliser une autre stratégie, pour laquelle la valeur maximale 
du risque conditionnel est supérieure à r*. Si, par exemple, dans 
l’un des états la stratégie Ô donne un risque conditionnel un peu 
supérieur à r*, et dans tous les autres états un risque de beaucoup 
inférieur à ceux qui correspondent à la stratégie du minimax Ô$*, il 
faut donner la préférence à la stratégie Ô. C’est ce que l’on peut voir 
sur la figure 1.1 où l’on a représenté des cas typiques quand il est 


92% 
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bon d'utiliser la stratégie du minimax (fig. 1.1,a) et quand elle se 
trouve être trop prudente (fig. 1.1,b). 

On peut montrer (cf., par exemple, [14], page 91) que toute stra- 
tégie du minimax est un cas spécial de la stratégie de Bayes pour la 
moins favorable des distributions a priori (pj)mm des états s;, j =0,. 

-. M, pour laquelle le risque moyen minimal (de Bayes) a la plus 
grande valeur parmi celles du risque moyen calculées pour une stra- 
tégie de Bayes pour toute autre distribution *). Malheureusement, 
il n'existe pas de méthode générale permettant de trouver la distri- 
bution (Pj)mm à priori la plus défavorable. Cependant, il a été dé- 
montré (cf. [14], $ 3.5) que la stratégie de Bayes à laquelle correspon- 
dent les mêmes risques conditionnels r; = r, j = 0,1, ..., m pour 
tous les états, est celle du minimax. Ceci peut être utilisé pour 
trouver la plus défavorable des distributions et, par conséquent, la 
stratégie du minimax. Mais il ne faut pas oublier que l'égalité des 
risques conditionnels pour des stratégies non bayesiennes ne donne pas 
la stratégie du minimax. D'un autre côté, si l'égalité des risques 
conditionnels ne peut être réalisée, ceci ne veut pas encore dire que 
la stratégie du minimax n'existe pas. Pour trouver cette dernière 
il y a lieu d'utiliser d’autres méthodes. 

Lorsque l’on connaît la distribution a priori des états s; sans pou- 
voir se donner les valeurs des pertes I1;,, on peut essayer une méthode 
quelque peu différente de choix des stratégies. En utilisant la formule 
de Bayes [cf. (1.19) dans le tome I] nous allons trouver la probabilité 
a posteriori de l’état s;, lorsque l’on observe l'échantillon (x,, . . ., z,) 


P{sjjay ..., rn}= Pin Œurents (1.9) 
D PaWn (ei... n 150) 


Les probabilités a posteriori mentionnées donnent la caractéristique 
la plus complète de l'état s; de l'effet étudié dans le cas où celle-ci 
doit être obtenue à partir des valeurs échantillonnées de la variable 
aléatoire observée. Il se trouve ainsi naturel d'adopter le critère 
suivant : parmi les hypothèses concernant les états s;, j — 0, 1, .. 
..., M, on considère vraie celle pour laquelle la probabilité a pos- 
teriori (1.9) est maximale. Ainsi, le critère de qualité de la straté- 
gie est le maximum de la probabilité a posteriori. 

Ce critère permet de trouver la règle de partition de l’espace des 
échantillons. Au domaine G,; on fait correspondre les échantillons 
(x1, . . -, 2) pour lesquels pour tous les j Æ kon a 

Pis ln, ss Gi P plis: 52,2). (1.9°) 


Si l’on n’a pas de données a priori ni sur la distribution des pro- 
babilités des états, ni sur les pertes, on peut utiliser le critère dit 


*) Les conditions d'existence de cette distribution la moins favorable 
ont été formulées dans l'ouvrage [14], $ 3.1, théorème 3.14. 
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du maximum de vraisemblance en vertu duquel, lorsque l’on observe 
l'échantillon x;, . .., x,, on adopte celle des hypothèses relatives 
à l’état s, pour laquelle la fonction de vraisemblance W, (x, ... 

+ Tn | S;) est supérieure aux autres fonctions de vraisemblance 
W, (mi, -..., mm ls, k —=0,1,...,j—1,j +1,..., m. Ce cri- 
tère est un cas particulier du critère du maximum de probabilité 
a posteriori, à condition toutefois que tous les états soient équipro- 


bables, c’est-à-dire que p; — x 


Un autre critère de qualité de la stratégie se base sur la quantité 
moyenne d’information contenue dans la stratégie adoptée 6 sur l’évé- 
nement étudié s (caractérisé par m—+ 1 états So, . . ., sn et par leurs 
distributions a priori Po, - : «; Pm). Par définition de la quantité 
moyenne d’information [13] on a 


m m 
P t 
T (6, s)= ÿ D Pis; et va) ln TE = 
j=0 k=0 


= H(s)—H(s|6) =H(s) — ÿ P{yrx} H(s|y:}, (1.10) 
R=0 
H (s) — — À psln p;>Ù 
J2—= 
est l’entropie, caractérisant l'indétermination a priori des états, et 
IH (s|vx) = — à P{s;|va} ln P {s;[ vu) > 0 
2= 


l'entropie conditionnelle de l'événement s une fois la décision y: 
prise. De plus, 


P{sim)=5 | .. | Wa (zs .….) Zn | Sj) dx: CE dTn, 
Ch 


P{m}= Ÿ p; ee À Wa ai ..., 2nls;) dus... da, 
j=0 G,, 


H (18 = 2 P {y} H(s]y:), O<H(s|5) LA (s). 


On considère la meilleure la stratégie Ô qui fournit le maximum 
d'information Z (6, s), c'est-à-dire minimise la valeur moyenne de 
l'entropie conditionnelle A (s | ô) (ou, comme on dit dans la théorie 
de l'information, de la non-fiabilité). Autrement dit, la stratégie 


22 VÉRIFICATION DES HYPOTHÈSES STATISTIQUES (CH. 1 


satisfaisant à la condition max Z (6, s) garantit une perte moyenne 
Ô 


minimale d’information, liée à la prise d’une décision à partir des 
valeurs échantillonnées *). 


1.2. VÉRIFICATION D'UNE HYPOTHÈSE SIMPLE CONTRE 
UNE ALTERNATIVE SIMPLE 


1.2.1. Probabilités de décisions correctes et de décisions erronées. 
Examinons un problème simple de la théorie exposée dans ce chapi- 
tre, c’est-à-dire le problème de vérification des hypothèses simples. 
Soit un certain nombre de valeurs observées z,, . .., x, (échantillon 
de taille x). On sait que ces valeurs appartiennent à l’une des 
distributions W, (x;, ..., z, | So) ou W, (x, ..., x, | S) carac- 
térisant les états so et s, incompatibles de l'effet étudié. Le problème 
revient à indiquer le meilleur (en un certain sens) algorithme de 
dépouillement des données observées et à décider à laquelle des dis- 
tributions mentionnées appartient l'échantillon obtenu. 

Désignons par H, et H, les hypothèses selon lesquelles les valeurs 
échantillonnées appartiennent aux distributions W, (x:, 

. Tn | So) et W, (ti, ..., x, | 5) respectivement, et par Yo 
et y, les décisions consistant à adopter ou à rejeter l’hypothèse F7,. 
L'hypothèse F, est une alternative simple de ZZ,, on peut donc pren- 
dre en considération seulement l’hypothèse Z7,. Il est évident qu'en 
rejetant l'hypothèse A ,;°on adopte l’hypothèse F,. Pour les procédu- 
res non randomisées considérées ici de vérification des hypothèses 
(voir $ 1.1.5) le problème revient à établir avant observation la 
stratégie selon laquelle à chaque échantillon zx;,, . .., x, on fait 
correspondre l’une des décisions Yo où y. autrement dit, à formuler 
la stratégie permettant d'adopter ou de rejeter l'hypothèse FH, à 
partir de données accumulées lors de l'observation de l'effet étudie. 
Etablir cette loi équivaut à diviser l’espace à nr dimensions des échan- 
tillons (x;, . .., x,) en deux domaines G, et G; disjoints. Si l’échan- 
tillon considéré tombe dans le domaine G,, on adopte l'hypothèse 
H,,, et s’il tombe dans le domaine G,;, on la rejette (c’est-à-dire que 
l’on adopte l'hypothèse H,). Ainsi 


(ti, +. Tn) € Go —+ Yo: 


(CTE RE | Zn) € Gi —+ Y, 


où le symbole € désigne l'appartenance d'un point à un domaine 
donné de l’espace. 
Le domaine G, d'acceptation de l'hypothèse est dit domaine 
admissible, et le domaine G, de rejet de l’hypothèse est appelé domai- 
*) Un critère informationnel plus complet de la qualité est lié à la maxi- 


misation de la valeur de l'information, si toutefois la quantité d'information 
obtenue ne dépasse pas une certaine limite [2]. 
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ne critique. L'équation de la surface D (x,, . .., x,) = const déli- 
mitant ces deux domaines dans l’espace à nr dimensions est l’expres- 
sion analytique de la stratégie. 

Quelle que soit la stratégie établie à l'avance, il est inévitable 
qu'à côté des décisions correctes on prenne également (vu la nature 
aléatoire de l’échantillon) des décisions erronées. Deux types d'erreurs 
sont possibles. L'erreur de première espèce apparaît lorsque 
l'échantillon tombe dans le domaine critique G; alors qu’en réalité 
c'est l’état s, qui a lieu. Par là même l’hypothèse }7, se trouve rejetée, 
bien qu'en réalité elle soit vraie. L'erreur de seconde espèce apparaît 
lorsque l’échantillon se trouve dans le domaine G, alors qu’en réalité 
c'est l’état s, qui a lieu. On adopte alors une hypothèse fausse. D’une 
manière analogue on peut considérer deux types de décisions correc- 
tes: une hypothèse vraie est adoptée (l'échantillon se trouve dans 
le domaine G, lorsque c’est l’état s, qui a lieu) et une hypothèse 
fausse est rejetée (l'échantillon se trouve dans le domaine G; lorsque 
c'est l’état s, qui a lieu). 

On peut facilement écrire les expressions des probabilités condi- 
tionnelles des erreurs pour un état donné de l’effet étudié. La proba- 
bilité conditionnelle & de l’erreur de première espèce est 


a = P{y| Ho} = P (x, ..., tn) EG] So} = 
—— | . à W, (xs; ... Zn | So) dx: —. dzh. (1.11) 
G1 


La probabilité conditionnelle d'une décision correcte d'adopter 
l'hypothèse vraie 4, complète la probabilité indiquée jusqu’à l’uni- 
té, c’est-à-dire que l’on a 


P {yol Ho} = P {(xss -.., ïn) E Go] So} = 


=... (WG... als) dr... den = 
Go 


=1—(. 4 Wa ris ce tnlso) di... dan =1—@. (1.11°) 
Gi 


La probabilité conditionnelle B de l'erreur de seconde espèce est 
B= P {vol Hi} = P {xs -.., tn) EGo| S1} — 


= {. Wa Ses Ta lS) dr se: dTn- (1.12) 
La probabilité conditionnelle d’une décision correcte de rejeter 
l'hypothèse fausse À, est égale à la différence entre l'unité et B, 


24 VÉRIFICATION DES HYPOTHÈSES STATISTIQUES [CH. 1 


en effet 
P{nl4:}= P {(, .. Tn) EG1|S1} = 
= (... (wi, ss Ln |S4) dx: ... ÊTn = 
Î 


=1—(... [Wa Les Zn[ss) des... den =1—$. (1.12”) 


La probabilité « de l’erreur de première espèce (c’est-à-dire la 
probabilité de rejeter l'hypothèse vraie 1.) est parfois appelée niveau 
de signification, et la probabilité 1 — B de rejeter une hypothèse 
fausse est appelée puissance de la stratégie ou du critère *). 

Sachant que les probabilités a priori des états so et s, sont get 
p = 1 — q respectivement, on peut à l’aide des formules (1.11) 

à (1.12”) trouver les probabilités a priori d'adopter les décisions 


Te 
P {yo} = qP {vo | Ho} + PP {vo | H1} = qg (1 — à) + pB, (1.13) 
P {y} = pP {1 Hi} + qP {vi 1 Ho} = p (1 — 8) + ga, (1.14) 


donnant les fréquences d’apparition de différentes décisions dans 
une longue suite de décisions. Dans les formules (1.13) et (1.14) 
les premiers termes sont les probabilités a priori de décisions 
correctes, et les seconds, les probabilités a priori des erreurs. 

Pour un échantillon de taille donnée les probabilités d'erreurs de 
première et de seconde espèce ne peuvent être simultanément aussi 
petites que l’on veut. Par exemple, pour abaisser le niveau de signi- 
fication il faut diminuer le domaine critique G;. Le domaine admissi- 
ble augmentera évidemment et la sensibilité de la stratégie sera moin- 
dre vis-à-vis des erreurs de seconde espèce. Ainsi, pour formuler 
l’une ou l’autre des stratégies il faut partir des considérations raison- 
nables. On utilise pour cela les critères de qualité dont certains ont 
été mentionnés au $ 1.1.6. Nous allons appliquer ces critères au 
problème de la vérification des hypothèses. 


*) Parfois on introduit dans l’espace des échantillons la fonction de décision 
D (X) qui pour une stratégie non randomisée est égale à 
f 1, X € Gi 
\ 0, À € Go, 
c c'est- -à-dire sert en un certain sens de compteur des cas où l'échantillon X = 
+ Zn) tombe dans le domaine critique. A l’aide de la fonction de 


= (z: 
décision ® (X) les formules (1.11) et (1.12’) peuvent être écrites comme les 
moyennes conditionnelles 


a = m {O(X)| Ho}, 1 — B = mi {® (X) | Hi}. 


Pour une stratégie randomisée, © (X) est une certaine fonction de répartition. 


D(X)= 
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1.2.2. Stratégie de Bayes. Introduisons tout d’abord la fonc- 
tion de pertes attribuant un coût Il,,, j—0, 1, k—0, 1, à chacune 
des quatre combinaisons Yo et Ho, Yo et H,, y. et Ho, ÿ1 et H,. I] 
est commode de représenter le coût sous la forme d’une matrice 
de coût : 


IT — ee ) » Do > oo Iso > His, (1.15) 
dont les lignes correspondent aux hypothèses H, et H,, et les colonnes 
aux décisions Yo et y. Suivant la diagonale principale on a les coûts 
des décisions correctes *), et suivant l'autre diagonale, les coûts 
(pertes) liés aux décisions erronées. La valeur moyenne des pertes, 
pondérée par les probabilités de leur apparition (ou risque moyen) 
est égale à 


R = {To + PT) (1.16) 
où 
To = [ooP {Vo | Ho} + To P {v: | Ho} = [lo (1 — &) + oc, 
(1.17) 
r = [ioP {Yo | Hi} + IP {vi | Hi} = IL + Il, (1 — B) 
(1.17) 


sont les risques conditionnels correspondant aux états so et si. 
En portant (1.17) et (1.17’) dans (1.16), on obtient après des 
transformations simples 


R = QqIloo + PIlio + 9 (os — Moo) & — p (io — Is) (1 — B). 
(1.18) 
Prenons en qualité de critère de la stratégie le minimum du 
risque moyen À. Ici le risque moyen dépend du domaine critique G:; 
par l'intermédiaire des grandeurs & et 1 — $. En portant dans 
(1.18) les expressions de ces grandeurs données par (1.11) et (1.12°) 
on trouve 
R = 900 + PIlio— | …. [ LP (io His) Wan (ti, +. Zn | 51) — 


Gi 
— q (Tor — Too) Wn (is +++, Tn|So)] di -.. den. (1.19) 


Comme glloo + pllio est une constante, on obtiendra le 
minimum du risque moyen À quand dans (1.19) l'expression sous 


*) Si Ioo << 0, Ils << 0, ces grandeurs peuvent être interprétées comme 
les gains pour des décisions correctes. 
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l'intégrale est non négative *), c'est-à-dire quand le domaine criti- 
que G; de l’espace des échantillons (où l’hypothèse /7, est rejetée) 
ne contient que les points pour lesquels on a 


P To — Is) Wa (xs en | 1) > 
> Q (oi — oo) Whn (ti + + +, Tn | So) 
ou 


PWhn (Zi, .….. Zn|s1) Toi — 100 1 99) 
Wan (T{s ...1 Tn | So) 7 10 — Ils ( À ) 


Ainsi, la stratégie optimale basée sur le critère du minimum de 
risque moyen, ou stratégie de Bayes, peut se formuler de la manière 
suivante : on adopte la décision y, (rejet de l’hypothèse Æ,), si pour 
l'échantillon observé on a l'inégalité (1.20), et la décision y, (accep- 
tation de l'hypothèse H,), si on a l'inégalité contraire de (1.20). 

L'équation de la surface séparant dans ce cas le domaine critique 
et le domaine admissible de l’espace des échantillons est 
PW na (ris cs, ns) _ Hot — Ta 

QWn (T1 ss Tn | So) De io — Hs: : 
Ms ne —. an de cette équation est appelé rapport 
de vraisemblance généralisé **). La vérification de l’hypothèse 
simple A, consiste à calculer le rapport de vraisemblance généralisé 
et à le comparer avec un seuil constant c* qui pour la stratégie de 
Bayes est égal à ***) 


D (x; 7 T:) —= (1.21) 


Le membre 


_ Hoi — 100 
ce ee (1.22) 


En désignant par G° le domaine critique déterminé par l’iné- 
galité (1.20), et par a* et 1 — P* le niveau de signification et la 
puissance correspondant à G;, le minimum de risque moyen À*, 


*) Remarquons que comme pour tout sous-ensemble G; de l’ensemble 
G; (G & G;) on a l'inégalité 


| dés EC cs Tn) di... drn < [ ss Î (Ægs ce. Zn) dry ... drn 
G; " Gt 


pOur f (xi, « - ., Zn) > 0, l'intégrale dans (1.19) est maximale si et seulement 
si le domaine d'intégration G; contient tous les points de l’espace des échantillons 
pour lesquels la fonction sous l'intégrale n'est pas négative. 

Watts - + Tn]s1) 
: W n(£ys - - +1 Tn | So) 
appelée simplement rapport de vraisemblance. (Certains auteurs préfèrent le 
terme de coefficient de vraisemblance.) 

**+) Bien que lorsque l’on a trouvé la règle optimale mentionnée on n'avait 
considéré que des règles déterministes, le résultat obtenu reste vrai pour le cas 
où le risque moyen est minimisé pour une classe plus étendue comprenant égale- 
ment les règles randomisées (cf., par exemple, [9, $ 19.1.2.] ou [10, $8 2.3)) 


*+) A la différence de la grandeur ! (x, ..., x,) — 
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ou le risque de Bayes, s'écrit en vertu de (1.18) sous la forme: 
R® = qIloo + pPlio + 9 (Moi — Ioo) æ* — 
— P (io — Ils) (4 — B*). (1.25) 


En déterminant les probabilités conditionnelles des erreurs a* 
et B* on peut éviter les difficultés liées aux calculs des intégrales 
multiples (1.11) et (1.12) et ramener le problème au calcul d’une 
intégrale simple. La fonction 


Wnzis ..., Tn | 51) 


L(xi, CE | Tn) = Wa (Zi, .…. Zn | So) * 


(1.24) 
c’est-à-dire le rapport de vraisemblance est une grandeur aléatoire 
non négative obtenue par la transformation fonctionnelle *) de 7 
grandeurs aléatoires z1, ..., x,. Désignons par W,o (y) la densité 
de probabilité du rapport de vraisemblance à condition que l’échan- 
tillon soit issu de la distribution W, (x, ..., x, | So) et par W; (y) 
celle du rapport de vraisemblance à condition que l'échantillon 
soit issu de la distribution W, (x;, . .., x, | 51). A partir de (1.11) 
et (1.12) et de la définition du domaine critique Gi Îcf. (1.20) et 
(1.22)]ona 


a P{(x, ..., tn) EG? | so} = 


= P{l(x, -.., zn) > Uc*] so) — | Wio(y) dy = 1—Fiy(uc*), (1.25) 


pcs 
B* = P {(m, -.., 2) EG |} = 
= P{l(n, ..., 2) <uc*|s} = Fi (uc*), (1.26) 
où Fo; Fu sont les fonctions de répartition du rapport de vraisem- 
blance pour les hypothèses 1, et À, respectivement et u — + 


1.2.3. Maximum de probabilité a posteriori et maximum de 
vraisemblance. Calculons les probabilités a posteriori pour l'effet 
étudié de se trouver dans l’état so ou dans l’état s, d'après l'observa- 
tion de l'échantillon x, ..., x,. On a à partir de (1.9) 


un I pare 2 En 0) 97 
P{olæ, LA Zn} = GW (tir ses Zn|So) +PWan (ri, ..., Zn ls) ? (és ) 

. PWn (fi ce. Tn|s1) 9 
P{slzs. HRSLE Zn} Wan (Zis +. Tn | so) + PWn (Zis Zn | S1) (29) 


Adoptons la stratégie suivante: étant donné l'échantillon 
Zi -. 2 On accepte l'hypothèse H, si P {so | Zu, - . +, En} >> 
*) La transformation fonctionnelle z = L (z1, .... r,) donne l’image des 


points de l’espace à n dimensions des échantillons sur l’axe réel (domaine unidi- 
mensionnel). 
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> P {a |z, ..., æ,} (décision Yo), et on rejette cette hypothèse 
si P {So | Zi, - . ., Tn} KP {si | 21, . . ., x, } (décision y,). En uti- 
lisant (1.27) et (1.28) on peut formuler cette stratégie comme suit : 
on adopte la décision 7, (rejet de l'hypothèse H,) si pour l'échan- 
tillon observé on a l’inégalité 


PWn (ft... Zn |S1) 
Mana (1.29) 


et on adopte la décision yo (acceptation de l'hypothèse H,) pour 
l'inégalité contraire de (1.29). 

Ainsi, il correspond au maximum de probabilité a posteriori un 
domaine critique de l’espace des échantillons dont les points satis- 
font à l'inégalité (1.29). La procédure de vérification de l'hypothèse 
simple À, se réduit dans ce cas au calcul du rapport de vraisemblan- 
ce généralisé et à sa comparaison à l'unité. En comparant (1.29) et 
(1.20), il est facile de remarquer que la stratégie envisagée est sim- 
plement un cas particulier de la décision de Bayes pour le seuil 
c* — 4 [cf. (1.22)]. Ceci correspond à des coûts égaux des décisions 
Yo et y. ou à des coûts égaux des erreurs Il,, = Il, = II si l’on pose 
[oo = Il, = 0. Dans ce dernier cas le risque moyen se trouve être 


égal à [cf. (1.18)] 
R = (ga + pB) I, (1.30) 


c'est-à-dire est égal à la probabilité a priori de l’erreur de première 
ou de seconde espèce au facteur constant II près. Par conséquent, 
la stratégie basée sur le critère du maximum de probabilité a poste- 
riori minimise la probabilité d'erreur a priori. Autrement dit, pour une 
longue suite de décisions, cette stratégie assure une fréquence maxi- 
male de décisions correctes. 

Si lors de l'élaboration de la stratégie on n’a pas de données con- 
cernant les probabilités a priori des états ss et 1, on peut au lieu du 
critère mentionné utiliser le critère du maximum de vraisemblance 
conformément auquel, pour l'échantillon zx;, . .., x, observé, on 
adopte l'hypothèse donnant la plus grande des valeurs de la fonction 
de vraisemblance de l'échantillon. Ainsi, on accepte l’hypothese A, 
si 

W; (is +1 Tn | So) > W; (x, +, Tn | S1) 
(décision y2), et on rejette cette hypothèse si 
Wy (ais cs Zn 1 So) < Wa (mi, - - ., 2h | Si) 


(décision y,). Autrement dit, on adopte la décision y, si pour l’échan- 
tillon observé on a 


Weiss En 5) 
L(xs, sx ue En) Qu cc ant : (1.31) 


et on adopte la décision yo pour l'inégalité contraire de (1.31). La 
procédure de vérification d’une hypothèse simple suivant le critère 
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du maximum de vraisemblance ‘se réduit au calcul du rapport de 
vraisemblance et à la comparaison de ce dernier à l'unité. A la diffé- 
rence de la stratégie correspondant au maximum de probabilité 
a posteriori, ici le rapport de vraisemblance généralisé 


PWhn (z4, ..., LTn | S1) 
Win (zis +. Zn | So) 


est remplacé par le rapport de vraisemblance 


Wn(zi ..., Znls1) 
Wa (z1, …. Zn |S0) 


Par conséquent, la stratégie basée sur le critère du maximum de 
vraisemblance est un cas particulier de la stratégie basée sur le cri- 
tère du maximum de probabilité a posteriori, lorsque les deux états 
possibles so et s, de l'effet étudié sont équiprobables, c'est-à-dire 
lorsque l’on a p = q — _ 

1.2.4. Critère de Neumann-Pearson. Le critère de Neumann- 
Pearson indique une autre méthode d'élaboration de la stratégie 
en l’absence d’information a priori sur les pertes et les probabilités 
des différents états. Conformé- 
ment à ce critère on choisit la 
stratégie pour laquelle la proba- 


bilité d'erreur de seconde espè- LZ 

ce B est aussi petite que possi- 7 

ble, à condition que la probabili- Z 

té d'erreur de première espèce T 


ne soit pas supérieure à un «œ 
donné. Autrement dit, la straté- 
gie basée sur le critère de Neu- 
mann-Pearson . la plus grande Fig. 1.2. Domaines de l'espace des 
puissance parmi les stratégies échantillons 
pour lesquelles le niveau de si- 
gnification ne dépasse pas &. 

Montrons qu’à cette stratégie correspond le domaine critique G: 
de l’espace des échantillons, contenant seulement les points pour 
lesquels 


(ep 


Wn(zs -..2n|s). (1.32) 


Eu ce En) nn, sant © 


le seuil c étant choisi à partir de la condition 


P {L (tir ce. 2n) > c| 50} = | Wio(y) dy = a. (1.33) 


30 VÉRIFICATION DES HYPOTHÈSES STATISTIQUES (CH. 1 
Soit 7 un domaine quelconque de l’espace des échantillons satis- 

faisant à la seule condition 
P {(, ..., ) ET |s} <a. (1.34) 


Désignons par U l'intersection des domaines G, et 7, par À, la partie 
du domaine G; n’appartenant pas à 7 et par B, la partie du domaine 
T n’appartenant pas à G, (fig. 1.2) *). Comme les points du domaine 
A satisfont à l'inégalité (1.32), on a 


PALATET ss tal si) Ti Sr 
A 


>c | . LATE Lee Zn 50) dti dt. 
A 
Par suite 


PA LATE7 sal 60 dE. dXrn = 
Gi 
= (... [wo tal) Er see dtn + 
A 


ee LUS rs Zn |S1) ds... dun > 


>ef... [Wa se En 60) dm «. den 


A 


+ (. ie | Wn (Zis ces Tn|S1) Xi... dtn = 
é 


=cef...[ wi 05 Æn | So) Tire dtn — 
Gi 
—c{...[Wi( …..s Zn | So) di . .. dEn + 
U 
+ | MERE [ Wa (Zi, +. Tn|S1) dxi ... dxn. (1.35) 
cu” 
Comme en vertu de (1.33) et (1.34) on a 
a= |. | Wa (ti --., Zn|So) dti ... din > 
Gi 


> [... [We Lee, En]$0) dti... dan, 
T 


*) Les cas où 4 = G,, B = T, U = 0 ne sont pas exclus. 
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il vient de (1.35): 
f: ” | Wa (is ces ZnlS) dr. den > 


>cf... [Wait es Zn (So) dr. den — 
ef... [wi ces En |S0) des... den + 
+... fm Lee, n[S1) di den = 
=c(... [wi Lee, nf 50) dr... drn+ 


+. [Wan ... En ]S1) dTy ... dEn. 
U 


Le domaine B ne contient pas de points appartenant au domaine 
G;, donc, en vertu de (1.32), on a pour ce domaine 


cW, (ms, .. 2 So) >> Wa ts. .., Mn | Si). 
Par conséquent 


{: : [WG ss dnlS) Miss th 
Gi 


»Fe | Win (&is cer nl 51) dei. den 


+... [Watan mls)ds de 
; 


— [. 6 | W, (x, PRE Zn | S1) dr: its dx; (1.36) 
TT 


c'est-à-dire que la puissance de la stratégie basée sur le critère de 
Neumann-Pearson [cf. (1.26)], égale à 


fu [Watan als) de... dun = 1—B=1— Fa (0), (1.37) 
G1 
est supérieure à la puissance pour toute autre stratégie satisfaisant 
à la condition (1.34). 
En comparant (1.32) et (1.20) on voit que la stratégie basée sur le 
critère de Neumann-Pearson est un cas particulier de la décision de 
Bayes où la grandeur uc* est remplacée par c trouvé de (1.33). 
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Ainsi, tous les critères de qualité envisagés ci-dessus conduisent 
à des procédures semblables de prise de décision : d’après l’échantil- 
lon z;, - .., x, on calcule le rapport de vraisemblance Z (x;,, . .., x.) 
et l’on accepte ou l’on rejette l'hypothèse H, suivant que cette gran- 
deur se trouve au-dessous ou au-dessus d’un certain seuil, établi 
à l’avance conformément au critère adopté. 

1.2.5. Méthode de calcul des probabilités conditionnelles des 
erreurs. Si © (y) est une fonction monotone, comparer L (x;, . .., æx,) 
au seuil c équivaut à comparer ® [2 (x;, ..., x,)] au seuil © (0). 
La procédure de vérification de l'hypothèse reste optimale. Les 
probabilités conditionnelles des erreurs sont calculées à l'aide des 
formules du type (1.25), (1.26) où les distributions des rapports de 
vraisemblance sont remplacées par les distributions de © (Î) et la 
borne d'intégration c est remplacée par la grandeur  (c). 

Lorsque l'échantillon se compose d'éléments indépendants, la 
fonction de vraisemblance de l'échantillon est le produit de leurs 
densités de probabilité unidimensionnelles [cf. (1.6)]. Une telle 
forme de la fonction de vraisemblance implique le choix de la fonc- 
tion © sous la forme du logarithme du rapport de vraisemblance. Il 
se trouve possible d'écrire le logarithme du rapport multidimension- 
nel de vraisemblance comme une somme de logarithmes de rapports 
unidimensionnels de vraisemblance : 


Ç Sp ur (ils) 

In La 2 = À Inl(x) = À In EE. (1.38) 
Si l'échantillon (z,, ..., x,) est homogène, In Z(x,, ..., x, )est 
une somme de grandeurs aléatoires indépendantes in L(xz;) ayant 
même distribution. Désignons par @, (v | so), @4 (v | si) les fonctions 
caractéristiques conditionnelles de la grandeur aléatoire In L (x) 
respectivement pour les hypothèses 4, et Æ,. En vertu de la relation 
bien connue en théorie des probabilités [cf. (3.115), tome I) 


6, (v | 50) = | w,(xz]|So) eXp [éme | dx, (1.39) 
6, (v | 51) = | wi (xz]Ss;) exp | év in Cle ane Jéz, dx (1.40) 
les densités de probabilité des variables aléatoires In Z (xz;,, . .., z,) 
sont 
4 oO 
W, (z| 50) = x | (9, (&|so)]"e-"* dv, (1.41) 
if — 
WiG|s)= | [O,&|s1)l"e-" dv. (1.42) 
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On peut maintenant, en utilisant (1.25) et (1.26), trouver les proba- 
bilités conditionnelles de décisions erronées à l’aide des formules 
suivantes 


a = | Wi(zls)d:=1—F,(Inc|s), (1.43) 
Inc 
Inc 

B= | W(:|s)d:=Fi(Inc|s), (1.44) 


où Fi (2 | So) et Fi (z | s,) sont les fonctions de répartition condition- 
nelles de In Z(xz,, ..., 2). 

Si nr est grand et les variances conditionnelles M: {In L(x) | si} 
sont bornées, la loi de distribution de In L(x,, ..., x,) en tant que 
somme d’un grand nombre de variables aléatoires indépendantes de 
même distribution [cf. (1.38)] tend, en vertu du théorème de Liapou- 
nov (cf. $ 3.4, tome Î), vers une loi normale. Dans ce cas 


Mono (EE). (45) 
., : | 2— = 
Melo PE). 440 


Mio — My {ln (zx) | So}, M20 — Mo {ln L(x) | so}; . (1.47) 
Mis = M (In l(x) | S1}, Ma = Mo in l(xz) |s:}. (1.48) 


On a alors les relations asymptotiques suivantes [cf. (1.43) et (1.44)]: 


2 In c— nm40 
a—1 FEES }: (1.49) 
: Inc—nmi;\ 
BF =): (1.50) 
M; 
_. Vas 
où F (zx) = x) e 2 dt est l'intégrale de Laplace (cf. $ 2.2.2, 


tome Î). 

On peut montrer (voir problème 1.10) que mo << 0.et my, > 0. 
Il s'ensuit que pour rz —> oo on a simultanément &« —> 0 et B—0 
(pour le critère de Neumann-Pearson, « étant donné, B tend vers zéro). 

Une stratégie pour laquelle la probabilité d'erreur tend asympto- 
tiquement vers zéro (pour z — co) est dite consistante. 

1.2.6. Stratégie du minimax. Nous allons également étudier 
la stratégie du minimax en utilisant le fait que celle-ci est un cas 
particulier de la stratégie de Bayes pour la distribution a priori des 
états la moins favorable (cf. $ 1.1.6). Comme dans le cas qui nous 
intéresse de vérification des.hypothèses simples il y a seulement deux 
états possibles s, et s;, la distribution mentionnée est donnée par la 
3—0682 
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seule probabilité q (ou p = 1 — q). Ainsi, pour trouver celle des 
valeurs de q à laquelle correspond la plus grande valeur du risque de 
Bayes, il faut trouver le maximum de la grandeur R* en tant que 
fonction de g en utilisant (1.23), sans oublier que cette variable entre 
dans le second membre de (1.23) tant directement que par l’inter- 
médiaire de a* et B* Îcf. (1.25) et (1.26)]. En dérivant le second 
membre de (1.23) par rapport à q, en annulant cette dérivée et en 
tenant compte du fait que les points de la surface séparant les domai- 
nes critique et admissible de l’espace des échantillons satisfont à la 
condition (1.21), on obtient une équation transcendante par rapport 
à la valeur cherchée la moins favorable de la probabilité gq: 


IToo [1 — @* (g)] + Toa* (9) = I0B*(Q) + Il, [1 — B* (a)l. 
(1.51) 
L'équation (1.51) découle directement de (1.17) et (1.17°) car elle 
exprime simplement l'égalité des risques conditionnels ro = r 
pour la stratégie de Bayes. Cette égalité, comme nous l’avons men- 


tionné au $ 1.1.6, caractérise justement la stratégie du minimax. En 
portant (1.25) et (1.26) dans (1.51) on peut écrire sous la forme sui- 


vante l’équation transcendante par rapport à q (ou à u — +) 
Toi — Moo . 
+ ce" [1 Fio(ue*)]= Fu (ue*). (1.51) 


En résolvant l'équation (1.51”) et en prenant sa racine un (et par 
conséquent {mm) à laquelle correspond le maximum absolu du risque 
de Bayes, on arrive à la stratégie du minimazx suivante : on adopte la 
décision y: (rejet de l’hypothèse H,) si pour l'échantillon observé 
Ti + + «<» Tn On a l'inégalité 


Pom J{x, ..., 2n)>c*, (1.52) 
mm 


et la décision yo (affirmant l'authenticité de l'hypothèse H,) si 
c'est l’inégalité contraire de (1.52) qui se trouve vérifiée. 

En vertu de (1.23), (1.25) et (1.26) la grandeur du risque du mini- 
max peut être calculée à l’aide de la formule 


Rmm = Jmmlloo + Pmmlli0 + mm (oi — Iloo) mm — 
— Pmm (T0 SE IT, ;) (1 dE Bmm); (4.53) 


Cmm = À — F0 (UmmC*)r Pmm = Fit (UmmC*). (1.54) 


La différence Rnm — R* > 0 entre le risque du minimax (pour 
q inconnu) et le risque de Bayes (pour q donné) se trouve être le prix 
qu'il faut payer pour l'absence d’information a priori concernant 
les états de l'effet étudie. 

Résumant ce qui a été dit aux $$ 1.2.2 à 1.2.5 on peut noter que 
pour tous les critères envisagés la procédure de vérification d’une 


a 


ou 
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hypothèse simple revient à comparer le rapport de vraisemblance 
au seuil c *). Les expressions donnant ce seuil, pour les différents 
critères, sont données dans la table 1. 


Table 1 
Critère | Seuil c 
4 loi — Hoo 
de Bayes PP 1 Pa 
du maximum de probabilité a poste- u = 
riori p 


du maximum de vraisemblance | | 


de Neumann-Pearson solution de l'équation 


Fiotc)=1—« 


du minimax Toi — oo 
Fm io as | 
Umm de (1.51) 


1.2.7. Echantillonnage progressif. La particularité essentielle 
de toutes les méthodes exposées ci-dessus de choix d’une décision est 
que l’échantillon était de taille constante n. Il y a une autre approche 
du problème de choix d'une stratégie où l’on renonce à prendre un 
échantillon de taille donnée, celle-ci étant définie au cours de l'expé- 
rience même, suivant les résultats des observations déjà effectuées. 
On commence par observer une seule valeur x; (extraction d'un échan- 
tillon de taille rz = 1) et à partir de cette valeur, suivant une stra- 
tégie établie à l'avance on adopte l’une des trois décisions suivantes: 

1) on accepte l'hypothèse H, (décision yo) ; 2) on rejette l’hypo- 
thèse H,, c’est-à-dire que l’on accepte l'hypothèse H, (décision y); 
3) on poursuit les observations, c'est-à-dire qu’on renonce à adopter 
l'une des décisions Yo ou 1. 

Si l’on adopte la décision y, ou Y, l’expérience se trouve terminée. 
Dans le cas contraire on prend l'échantillon suivant et l’on répète 
la même procédure: en observant l'échantillon (x;, z2) de taille 
n = 2, on accepte l'hypothèse J7,, ou on la rejette, ou bien on consi- 
dère que cet échantillon est insuffisant pour pouvoir définitivement 
adopter l’une des décisions y, ou y:. Si l’on accepte ou l’on rejette 
l'hypothèse }7,, l'expérience se trouve par là même terminée, et si la 


*) Notons que le domaine critique pour lequel ! (r;, ..., x,) > c n’est 
pas forcément simplement connexe (cf. problème 1.5). 


3% 
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décision définitive n'est pas prise on prélève l'élément suivant z3, 
puis l’on répète la même procédure pour l'échantillon (x, z2, x3). 

L'essai se termine sur l’échantillon qui permet de prendre l’une 
des décisions yo ou Y.. L’échantillonnage progressif a ceci de particu- 
lier que la taille de l'échantillon n’est pas fixée à l’avance, c’est une 
variable aléatoire. L'espace des échantillons du nombre correspon- 
dant de dimensions doit maintenant être divisé non pas en deux mais 
en trois domaines : le domaine critique G,;, le domaine admissible Go 
et le domaine intermédiaire G;nt. C’est la partition de l’espace des 
échantillons en trois domaines qui indique si l’on doit adopter l’une 
des décisions Yo Ou Y1, ou si l’on doit poursuivre l'expérience. Si la 
valeur échantillonnée tombe dans ke domaine critique G; l'hypothèse 
H, est rejetée ; si elle tombe dans le domaine admissible G, l’hypo- 
thèse 7/, est adoptée, et si elle tombe dans le domaine intermédiaire 
Gint, il y a lieu de poursuivre l'expérience. 

Tout comme dans le cas des méthodes d'échantillonnage non 
progressif, l’espace des échantillons peut être divisé d’une infinité 
de manières. Par conséquent, des stratégies les plus diverses sont 
possibles et évidemment, il faut de nouveau des critères de qualité 
permettant de comparer les différentes procédures d’échantillonnage 
progressif et d’en choisir la meilleure. Il est raisonnable et naturel 
d'adopter comme critère un prix moyen minimal de l'expérience. Si 
l’on considère que le prix de l’expérience est proportionnel à la taille 
-de l'échantillon n, le critère de qualité de la stratégie d’échantillon- 
mâge progressif peut être le minimum de la taille moyenne de l’échan- 
tillon: indispensable pour que l’une des décisions y, ou y, soit prise, 
à condition que le niveau de signification ne dépasse pas «& et que la 
puissànce ne soit pas inférieure à 1 — $. Il faut noter que dans ce cas 
les tailles moyennes de l'échantillon m, {n | H5} et m, {n | H;} 
pour les hypothèses A, et A, respectivement ne sont pas en général 
égales entre elles et doivent être toutes deux minimisées. 

‘À. Wald [3] a montré que parmi toutes les stratégies (d'échantil- 
lonnage progressif ou non) pour lesquelles les probabilités condition- 
nelles des erreurs ne dépassent pas les grandeurs «& et B, c’est la 
stratégie d’échantillonnage progressif dans laquelle on compare le 
rapport de vraisemblance L'(x,, . .., x,) aux deux seuils *) c et c; 
qui donne les plus petites valeurs de m, {nr | Ho} et m, {n | H;}. 

- La partition optimale de l’espace des échantillons est donnée par 
les inégalités suivantes: | 
-‘’’pour le domaine admissible Go 


Cola... mm) <a k=1,...,n —1, (4.55) 


L (x:, . . .) Th) L Co; 


*) Les valeurs de Co et c; dépendent en général de n. 
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pour le domaine critique G. | 
Col, ..., 2) Lu k—=1,...,n—1, (1.557) 
issus D) ec: 
pour le domaine intermédiaire Gint 
ce Lies De ci T, 2:57: (1.55") 


On rencontre de grosses difficultés mathématiques lors du calcul 
exact des seuils c, et c1. Cependant, il a été démontré dans [3] que 


cm (rie. 44). 50 
> min (À, —). (1.50°) 


Pratiquement dans les cas les plus fréquents et donc les plus inté- 
ressants, quand les probabilités conditionnelles d'erreurs ne dépas- 


sent pas la valeur 0,5, on a TE > et ces inégalités peuvent 
être écrites sous la forme suivante: 
d== 
LE » Co Z rh . (1.57) 


Puis on remplace les inégalités (1.57) par des égalités, ce qui n’aug- 
mente pas sensiblement l'erreur (pour plus de détail voir [7], ch. 3). 
Ainsi, dans une certaine approximation, la stratégie d’échantillon- 
nage progressif peut être formulée de la manière suivante : lors de la 
n-ième observation on adopte la décision yo si *) 
Rire), k=1,..., n—1 (1.58) 


œ 


et 
L(xi. ….. Tan) 


—. aa LE (1.58) 
on adopte la décision y, si les inégalités (1.58) se trouvent vérifiées 
et si 


rs ss 2n)> ER 1. (1.58°) 


Notons que pour les approximations faites ci-dessus, à la diffé- 
rence de la stratégie de Bayes, dans celle d'échantillonnage progres- 
sif on compare le rapport de vraisemblance à des seuils qui ne dépen- 
dent pas des probabilités a priori des états ni des valeurs des pertes: 
Ces seuils sont donnés par les probabilités des erreurs de première et 
de seconde espèce. 


*) La probabilité que le nombre n d'étapes de la procédure d'échantillon- 
dus ds de vérification des hypothèses ne soit pas limité est nulle 
voir ). 
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Si au lieu du rapport de vraisemblance on calcule son logarithme, 
la stratégie mentionnée peut s’écrire de la manière suivante: 
pour rx observations on adopte la décision yo si 


<inl(zse.., m)<In LÉ, k=14,...,n—1 (1.59) 


In ? 
œ 


et 


In L(zy ce, En) LMP <0: (1.59°) 


1— a 
on adopte la décision y, si en plus de (1.59) on a 


1—B 


œ 


Inl(xi, ..., Zn) > In > (. (1.597) 

Calculons maintenant les valeurs moyennes de la taille de 
l'échantillon m{r | H5} et m{n | H,} correspondant à la stratégie 
d’échantillonnage progressif. Dans le cas envisagé le logarithme du 
rapport de vraisemblance est égal à la somme d’un nombre aléatoire 
de variables aléatoires [cf. (1.38)] 


In E(x1, -.., Zn) 2 In l (x:). 
Ainsi [cf. (3.140), tome I] _ 


mi {Inl(x, ..., 2) | Ho:1}=m {n | Ho: 1} m: {In L (x) | Ho: 1}; 
d’où 


__my{inl(zs,..., zn)| Ho} 
malien iHe (1.60) 


__my{lnl(zs, ..., Zn) | H1} ’ 
mm: {n| H:}= — mini lAi} (1.60 ) 


Supposons que lorsque l’on prend une décision (y, ou y1) au n-ième 
pas, la valeur du rapport de vraisemblance coïncide exactement avec 
l'un des seuils c, ou c; (c'est-à-dire que l’on négligera l'intersection 
du seuil lors de l’étape finale de la vérification de l'hypothèse). 
Dans ce cas In { (x, ..., x,) est une variable aléatoire discrète 
pouvant prendre deux valeurs: In c, et In c; avec les probabilités 
14 — et & si c’est l’hypothèse H, qui est vraie et avec les probabili- 
tés B et 1 — B si c’est l'hypothèse H, qui est vraie. Par conséquent 
on a 


ma ln (rs, .., 2n)| Ho)=(1—a)lIn-Ê+om À, (1.61) 


1—a 


ma {ln L(zs, ..e, 2n)| H}=BlnÊ—+(1—$)in 8. (161) 


œ 
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En portant (1.61) dans (1.60) et (1.61”) dans (1.60”) on obtient 
p 1—$ 
Aa) In + ain = E 
mi{n| Ho} = : _ = (1.62) 
p 1—$ 
B1n ——— + (1—6$) 1n — 
m{n|H,} =!" = Re (1.62°) 
où [cf. (1.47) et (1.48)] 
W 
Mo="u {ln l(z)| Ho} — | Wi (50) In GE dx ; (1.63) 
O0 w | 
mu = mi {ln l(z)| Hi} = | Wi(x] 51) In Ge En EE de, (1.63°) 


avec M0 <0, m1, > 0, ce qui découle directement de la formule (23) 
du problème 1.10. 

Les valeurs moyennes de la taille de l'échantillon données par 
(1.62) et (1.62) sont minimales parmi toutes les valeurs possibles 


pour toutes les autres stratégies (y compris celles d'échantillonnage 
non progressif) et garantissent 


des probabilités d'erreurs li- Fin) 

mitées à des valeurs données. 1.0 

C'est là l'avantage essen- ” ph 
tiel de l'échantillonnage pro- ÿgl---__________. 7 
gressif car en moyenne il permet 0 
d'économiser tant sur la durée 4 0° 

que sur le coût de l'expérience. oo 

Cependant il faut noter qu'il s’a- 3 5 PAR à 


git d'une économie en moyenne ce 
qui est très important. En effet, 
dans le cas d'’échantillonnage 
progressif, la taille nr de l’échan- 
tillon est une variable aléatoire 
qui peut prendre des valeurs 
nettement supérieures à la valeur moyenne et il peut se faire 
que dans certains cas la procédure optimale d'échantillonnage 
progressif conduit à un échantillon trop grand. 

C'est ce que l'on peut voir sur la figure 1.3. La partie hachurée 
correspond à des échantillons de taille supérieure à une certaine va- 
leur acceptable rmar. Bien que dans 80 % des cas la procédure de 
vérification des hypothèses soit de moindre durée par rapport à celle 
des méthodes de taille fixe 7 — Amax, il Y aura quand même des cas 
« malheureux » où l'analyse par la méthode d’échantillonnage pro- 
gressif se trouve plus longue. Il est naturel d’essayer de parer à l’in- 


Fig. 1.3. Fonction de répartition de la 
taille d’un échantillon lors de l’échan- 
tillonnage progressif 
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convénient, pour cela on se donne à l'avance la valeur maximale de la 
taille ñ7,:2+ de l’échantillon. Une fois cette valeur atteinte, on arrête 
l'expérience et l’on prend obligatoirement l'une des décisions Yo 
ou y, (si, évidemment, on n'a pas pris une décision avant). On évite 
ainsi les cas où nr >> Amar. 

La procédure mentionnée de vérification des hypothèses est appe- 
lée plan d'’échantillonnage tronqué. Ici, avant d'atteindre nax, 
on compare le rapport de vraisemblance correspondant à deux seuils, 
et lorsque la taille de l’échantillon atteint la valeur ra+, le rapport 
de vraisemblance correspondant est comparé non pas à deux seuils 
mais à un seul, comme lors de l'analyse d’après les plans de taille 
fixe. Plus rmark est petit, c'est-à-dire plus le plan est tronqué, 
moindre sera le gain en temps moyen obtenu avec l’échantillonnage 
progressif. 

La stratégie dans le cas d’échantillonnage progressif tronqué se 
formule comme suit: si pour la taille de l'échantillon nr < nñmax 
la stratégie (1.59) ne conduit pas à une décision (y, ou y1), l'hypo- 
thèse À, est rejetée (on adopte la décision y.) si 


K- )<In IE, (1.64) 


<Inl(zi, ..) In 


max 
et on accepte r  . H, (décision Yo) si 
- <In Ex, ..., nn )<inc<in LS (1.64') 


In 
max 

En utilisant la règle (1.64) on doit s'attendre à ce que les proba- 
bilités d'erreurs @+, Bt- de première et de seconde espèce s'avèrent 
parfois supérieures aux erreurs données: ar > @; Bt. > B, car les 
décisions erronées adoptées pouvaient ne pas apparaître si l’on conti- 
nuait les essais (nr >> ñmax). Les limites supérieures des probabilités 
conditionnelles des erreurs pour le plan d’échantillonnage progressif 
tronqué sont données _ les inégalités 


arLa+P {in PB Inl(r, ..., Enmax) > 1060}, (1.65) 


Bu <B+P {Inc>lnl(as ..., 2n >imila}. (1.65) 


max 


Pour nmax D 1, comme il a été démontré dans [3], ces inégalités 
deviennent 


1—$6 
In — AmaxM10 = 
atrLa+F oem 1 F[ mes In c—masrtn IE 


V'nmaxM 20 V'rmaxM20 
In B —n m 
Inc—nmaxmit 1{—a LE 
D ; V'amax Mo: V'rmaxMai 
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OÙ Mio Miss Mocr May sont donnés par (1.47) et (1.48) et F (x) est 
l'intégrale de Laplace. 


Notons que comme In. <0 et In > O0, la valeur du 


seuil c — 1 pour le plan d'échantillonnage progressif est toujours 
acceptable [cf. (1.64), (1.64")1. A l'heure actuelle on ne peut pas don- 
ner de recommandations plus ou moins fondées quant à la valeur 
optimale du seuil c. 


1.3. VÉRIFICATION DE L'HYPOTHÈSE SIMPLE 
CONCERNANT LE PARAMÈTRE D'UNE DISTRIBUTION 


1.3.1. Valeur moyenne d'une variable normalement distribuée. 
Nous allons maintenant donner des exemples simples permettant 
d'illustrer les méthodes générales exposées plus haut. Commençons 
par l’exemple de vérification de l’hypothèse FH, en vertu de laquelle 
la valeur moyenne d’une variable normalement distribuée est égale à 
&. avec l'alternative simple À, que cette valeur moyenne est a.. 
Supposons que l’on connaît exactement la variance 0° d’une variable 
aléatoire normale et que l’échantillon sur lequel on vérifie l’hypothè- 
se se compose d'éléments indépendants z;,, . .., z,. Comme toutes 
les procédures optimales de vérification des hypothèses que nous avons 
envisagées se réduisent à comparer le rapport de vraisemblance 
L(xi, -.., &,), ou son logarithme, à un certain seuil (ou à deux 
seuils dans le plan d’échantillonnage progressif), nous écrivons tout 
d’abord l'expression de In Z (x,, . . ., x,) pour la loi normale lorsque 
les éléments de l'échantillon sont indépendants: 


Inl(x, ..., r)= D Inl(x)= 


i= 1 


1 (x: — &)° 
n —— «| — rs Er | n 
2 a 1 e 
= D 0 UE EE D mao) — 
il 4/52 VA exp| — 202 Le | i=1 


"(ae (1,66) 


20? 


On peut maintenant facilement formuler la stratégie pour un plan 
de taille r fixe de l’échantillon : on adopte la décision y, (la moyenne 
est égale à a;) si pour l'échantillon observé on a 


) pme te > @, (1.67) 
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et l’on adopte la décision yo (la moyenne est égale à ao) si on a l’iné- 
galité contraire de (1.67). La grandeur du seuil pour les différents 
critères est donnée dans la table 1, page 35. 

Si 4 << ao, l'inégalité (1.67) change de sens et la condition 
choix de la décision y, s'écrit sous la forme 


DES GOUT, a do. (1.67) 


n (ao — ai) 


Ainsi, la re de vérification de l'hypothèse concernant la 
valeur moyenne d’une variable aléatoire normale se réduit à compa- 
rer la moyenne des variables échantillonnées au seuil 

ao + a: o2Înc 

La surface séparant le domaine admissible et le domaine critique 
de l’espace des échantillons est dans ce cas un hyperplan perpendicu- 
laire au vecteur unité et éloigné de nr À de l'origine des coordonnées. 

Il est alors facile de trouver les expressions des probabilités con- 
ditionnelles d'erreurs. Comme la somme de variables aléatoires 
normales est elle aussi une variable normale, et, étant donné que 


m: {25 ti] Ho} = Go, M: {25 a|H}=a, (1.69) 
i=1 i—1 
et si les éléments _ l'échantillon sont D, 
M; {+ > alHo}=M {+ Y 2 [HÈ=T, (170) 


en utilisant 4.67 et également 449) à pi (1.44)], on obtient pour 
€: > ao 


: Var ; RUE IE : 
is 6 V 2x je dy — 
oo 12 
_ 1 T9 1 — K— En 
== _J e ?dt=1—-F(—2Vn), (171) 
LE 


- = l CT dt=F (<< Vn) ; (1.72) 


où F (zx) est l'intégrale de Laplace [cf. (1.49) et (1.50)1. 
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La figure 1.4 illustre cette stratégie. Les courbes en pointillé 
correspondent aux densités de probabilité associées aux hypothèses 
H, et H,. Les courbes en trait continu donnent les densités de 
probabilité de la moyenne arithmétique des valeurs échantillonnées 
pour les mêmes hypothèses. Le seuil est établi à partir du critère du 


W&) 


Fig. 1.4. Stratégie de vérification de l'hypothèse sur la 
moyenne d'une variable aléatoire normale 


maximum de vraisemblance (c = 1). Les aires des parties hachurées 
sont égales aux probabilités des erreurs de première et de seconde 
espèce qui sont identiques pour À — cote 


Dans les formules (1.71) et (1.72) la grandeur Æ pour les trois 
premiers critères figurant à la table 1 est donnée directement par 
la formule (1.68), ainsi ces formules deviennent 


a nie ns DE -rvsil ee) 
_p[_ 003, Since , 
P=F| 20 Re de M) (07) 


Les formules ci-dessus montrent que les probabilités condition- 
RE ne pour c donné dépendent encore de la seule grandeur 


dh = — 1 n. Il est facile de voir que la moyenne et la variance 


du lssarithine du rapport de vraisemblance sont liées à cette gran- 
deur par des relations simples 


d 
mi {ln l(x:, ….) Zn)| H:} = — ms {ln l (x, .., Tn)| Ho} ="; 


Mila Lx... 2n)| Hi} = Mofln ls, ..., 2n)| Ho} = di. 


Notons qu'en vertu de (1.49) et (1.50) pour r — co les probabilités 
d'erreurs tendent vers zéro conformément au résultat obtenu au 
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$ 1.2.5. Dans ce cas la distribution de la moyenne arithmétique des 
valeurs échantillonnées tend vers une fonction delta aux points 
y = do, y —= di, et le seuil Rs nu, 


Pour le critère du maximum de vraisemblance (fig. 1.4) 
a=p=1-F(H eV n). (1.74) 


Pour &« — f donné, on obtient à partir de (1.74) la taille requise de 
l'échantillon 


n = 4 | )è, (1.74°) 


äj —dao 


Ta = arg F(x). 


En mathématiques statistiques la grandeur x, est généralement 
appelée quantile d’une variable aléatoire *), caractérisé par l’abs- 
cisse de la courbe de distribution telle que la partie de l’aire sous 
cette courbe se trouvant à droite du point zx, soit égale à &, autre- 


ment dit 
P{E>zx.}= a. (1.75) 


Dans la formule (1.74) la grandeur zx, est ainsi le quantile d’une 
variable aléatoire normalement distribuée. On a donné dans l’an- 
nexe VII une table des quantiles de la loi normale. 

Pour le critère de Neumann-Pearson, ayant fixé le niveau de 
signification &, la grandeur X est donnée par la formule (a > «&o) 


K = ao + 7 Lo (1.76) 
Dans ce cas la probabilité d'erreur de seconde espèce peut être 
obtenue en portant (1.76) dans (1.72): 


B=F[-# 0 Vn+z, | (1.77) 


ou 


Ta —Tp= CV nr, & >. (1.77') 


La formule (1.77) établit la correspondance entre la taille r de 
l'échantillon, la probabilité conditionnelle d'erreur & de première 


*) 11 est évident que le quantile de la variable aléatoire E coïncide avec 
le quantile 1 — & de sa fonction de répartition Fi (x), car en vertu de (1.75) 
z, st la racine de l'équation F; (x) = 1 — & (cf. tome I, 8 2.1.3). Des cas 
particuliers peuvent apparaître lorsque F (x) est discontinue ou lorsque sur 
l’axe réel il existe des intervalles où la fonction de répartition reste constante. 
Pour éviter toute confusion il faut noter que parfois (cf., par exemple, [5]) 
le quantile peut être défini autrement : dans (1.75) on remplace E par sa valeur 
absolue de sorte qu’on obtient P {[E| >2À,}—= «. Dans cet ouvrage on 
utilise partout la définition (1.75). Pour une variable aléatoire dont la fonction 
de répartition est symétrique par rapport à l'origine des coordonnées on a 


To un A° 
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espèce et la probabilité minimale possible d'erreur B de seconde 
espèce. Pour 7 + en vertu de (1.77) on a B — 0, ceci conformément 
au résultat général du $ 1.2.5. 

Remarquons que le seuil À déterminé par le critère de Neumann- 
Pearson d’après (1.76) ne dépend pas de a. 

Ï1 faut souligner que les probabilités d'erreur «& et B dans la stra- 
tégie de Bayes et la probabilité d'erreur de seconde espèce (pour « 
donné) pour le critère de Neumann-Pearson ne dépendent pas de 
chacune des grandeurs n, &o, a et o séparément, mais seulement du 


Gg—«a » 
rapport d, == n. Par conséquent, lorsque la grandeur 


17 Jiminue de Æ fois (distinction entre deux hypothèses voi- 
= P 


sines), pour que les probabilités d'erreur soient les mêmes il faut 
que la taille de be pas augmente de X* fois. La stratégie ne sera 


consistante que si = — 


décroît plus lentement que —— : = Pour 7 — co. 


Si a << &, la re Y1 suivant le critère de Noimatn, Pearson 
sera adoptée à condition LL [comparer avec (1.67”)] 


1 15 10 ra 


i=1 


La probabilité d'erreur de seconde espèce sera alors égale à 
B = F [ — + Vn+ze | . 
Considérons maintenant la stratégie du minimaz posant Is = 
= Il, = 0, No = Allo. On a alors c* = À, c = Àu — F et l'équa- 


tion donnant la valeur la moins favorable de la probabilité a priori 
{mm = À — Pmm devient en vertu de (1.51), (1.73) et (1.73) 


EL en qh _ 
1 DE Vn+ V/n … di 1— q | 


= ?#p#| — y — 49 as (es qh FA 
: Fi] ee Ph Im]. (1.78) 


Pour À = 1, en vertu de (1.78) on a Qmm = _. Comme on pouvait 
s’y attendre, lorsque les erreurs de première et de seconde espèce 
conduisent à des pertes égales, l'apparition équiprobable des états 
S et s, est la moins favorable du point de vue du risque de Bayes. 


On a représenté sur la figure 1.5 le risque de Bayes R* en fonc- 
tion de q pour AV n = {. Dans ce cas en vertu de (1.23), 
(1.73) et (1.73) l'expression de a est 


R*= = Ip {Ag [1—7 (in © —+1)]+pr (in 
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Pour un À donné, la moins favorable des valeurs de gnm Correspond 
à la valeur maximale de Rym — R* ({mm)- Comme on peut le voir 
sur la figure 1.5, pour À = 1 les pertes ne diminuent pas beaucoup 
pour q Æ {mm tandis que pour À = 10 la stratégie du minimax peut 
paraître trop prudente. Cepen- 
dant, cette prudence est une ga- 
rantie que les pertes ne dépasse- 
ront jamais Rynm-. En effet, si 
pour À = 10 on s’écarte un peu 
de la valeur la moins favorable 
{mm = 0,3 et si l’on adopte la 
stratégie de Bayes pour g, — 0,2, 
les pertes moyennes ne diminue- 
ront que de 20 %. Si en réalité 
g#Ægqet si l’on utilise la stra- 
tégie de Bayes pour q = q;, le ris- 
que moyen À varie en fonction 
de q d’une façon linéaire : R (q) — 
qro (qi) + (1— 9) ri (gi) (tangen- 
te au point qg — q, à la courbe 
1 ! | R* (q) pour À = 10 sur la figu- 
02 04 06 08 ÿ re 1.5) et pour certaines valeurs 
de q peut être sensiblement supé- 
rieur à Rmm Correspondant à la 
stratégie du minimax (voir la partie hachurée sur la figure 1.5). 

Considérons en conclusion la stratégie d'échantillonnage progressif. 
Dans ce cas pour des probabilités d'erreur données « et B le logarithme 
du rapport ce CRE (1.66) doit être comparé aux deux seuils 


In _ set In 2—È (pour & << 0,5, B << 0,5). Plus exactement, pour 


a; — à à la Te étape on adopte l'hypothèse d’après laquelle la 
valeur moyenne de la variable aléatoire est égale à ao si 


Fig. 1.5. Risque moyen 


p 
ne o2in 
1 2o-L 4 1— a 
F2 Ti< Fra) NL 
et l'hypothèse affirmant que la valeur moyenne est égale à a, si 
1—$ 
n O2 In ——— 
1 > ap St Œ , 
. = Fran (1.791) 


enfin, on poursuit les observations si ni l’une ni l’autre des inéga- 
lités (1.79) et (1.79°) ne se trouve être vérifiée. 

Pour calculer les moyennes des tailles minimales des échantillons 
nécessaires pour aboutir à une décision définitive, il faut en utili- 
sant (1.62) et (1.62”) trouver la moyenne du logarithme du rapport de 
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vraisemblance unidimensionnel pour les deux cas suivants : 1) lorsque 
le paramètre de la distribution est égal à a; 2) lorsque ce paramètre 
est égal à a;. Comme en vertu de (1.66) 


ai —@ ai — a 
In L(7)= 4500 7 — ES, 


où zx est une variable aléatoire normale de variance 0° et de moyenne 
a (ou &), dans l’exemple envisagé on a 


ay— a a? — a? (ay — ap)? 
_ 4—4@0 af—a$ (ay —ap)? 
MU Gr M ZE — 20 (1-81) 


En portant (1.80) et (1.81) dans (1.62) et (1.62”) on obtient 


({— @)ln _ +aln 

(| 99} = 20° —"#î —  #., (1.82) 
b 1 —6 
Bin + «fn Ê 

m {n | ai} = D es (1.83) 


Ces formules montrent que la taille moyenne des échantillons 
suffisante pour prendre une décision définitive (Yo ou 1) est inver- 


. ? Gy— a 
sement proportionnelle au carré de la grandeur -——. 


Pourxœa =f —e<0,5ona 
mfn|a=mi{n|a=2 (>) (41—2e)m ©. (1.84) 


ai —ap £ 


Dans la table 2 on a rapporté les valeurs moyennes (pour A — 


L 1) de la taille de l’échantillon calculées d’après (1.84) et la taille 


de l’échantillon nécessaire pour obtenir les probabilités conditionnel- 
les données &æ = B — e pour les stratégies d’échantillonnage de 
taille fixe suivant le critère du maximum de vraisemblance {cf. 
(1.74)]. L'avant-dernière ligne de cette table donne la grandeur du 
gain lorsque l’on utilise une stratégie d'échantillonnage progressif *) 


R 2r? 
mitnt 


(1.84) 
1 — 2e) In 1 


; o 
ce rapport ne dépendant pas de TETE 

*) Ici x, est le quantile d'une variable aléatoire normale. Remarquons 
également que pour le cas & = B étudié à titre d'exemple l'échantillon- 


nage progressif n est pas le plus efficace. Le gain est beaucoup plus important 
lorsque & € B ou B< & (cf. [1], page 57). 
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Table 2 
e | 0,001 | 0,0! | 0,05 | 0,1 | 0,2 
mi {n} | 13,7 | 9,0 | 5,3 | 3,5 | 1,67 
n | 38,2 | 21,6 | 10,6 | 6,5 | 2,8 
ACT | 2,78 | 2,41 | 2 OU 1,85 1,68 
(etr}max 0,0023 0,0197 0,096 0,185 | 0,355 


Notons que pour le cas d’ échantillonnage progressif tronqué où 
n  Nmax etc = 1, il vient de (1.65) et (1.65”) que les limites supé- 
rieures des probabilités d’erreur sont les mêmes et égales à 


(Eur)max =e+ F (5 Re : In —)—r($) ; (1.84") 


© 
= 


d° = Nmax ( A0 | 


La dernière ligne de la table 2 donne les grandeurs (et) max 
pour TE —= 4 et rnax Coincidant avec la taille x de l'échantillon 


dans le cas d’échantillonnage de taille fixe (troisième ligne de la 
table). 

1.3.2. Variance d'une variable aléatoire normale. Soit une 
variable aléatoire normale de moyenne nulle. Supposons que l’on 
émette l'hypothèse H, que sa variance est égale à 05 contre l’alter- 
native simple À, que sa variance est égale à 0°. Nous supposons tou- 
jours que les éléments de l'échantillon d’après lequel on adopte une 
décision soient indépendants. Ecrivons l'expression du logarithme 
du rapport de bn 


In / (2, 2 In [exp { À ( GT — 07 7) } |= 
n 
= nn + (+) 2% (1.85) 


La stratégie (pour le cas d’échantillonnage de taille fixe) se for- 
mule comme suit: on adopte la décision y, (la variance est égale à 
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0°) si pour 6, >Gcoona ; 
ñn 
. 2020? "foin 2 
Dai>tin| (5) c]=4, (1.86) 
k=1 


et l’on adopte la décision yo (la variance est égale à 0) si c'est l’iné- 
galité inverse de (1.86) qui est vérifiée. 

Ainsi, la vérification de l'hypothèse sur la variance d’une varia- 
ble aléatoire normale se réduit à la comparaison d’une somme des 
carrés de valeurs échantillonnées au seuil 


- __ 2050f Gp\ , 
Ke nf (5) e]>0. > 00 (1.86’) 
La surface séparant le domaine admissible du domaine critique 
de l’espace des échantillons est dans ce cas une hypersphère avec le 
centre à l'origine des coordonnées, de rayon VX. 
En utilisant (1.25) et (1.26) on peut trouver l'expression des pro- 


babilités conditionnelles d'erreurs. Comme la somme D (&) des 
k=1 

carrés des variables aléatoires normales normées est distribuée sui- 

vant une loi du 4° à r degrés de liberté (cf. tome I, problème 3.15), 

les densités de probabilité de la somme des carrés du premier membre 

de (1.86) sont 


1 RE - 
MALTE PAL e *%, y>0, (1.87) 


si c'est l'hypothèse À, qui est vraie, et 


| RÉ e) ? + Cd À 
eut (HT ET, y>0 (1.87) 
2P on 


si c'est l'hypothèse 77, qui est vraie. On a alors 


n oo AE 
a= P { Dr >| Ho} = \ en, (1.88) 
… : r() 
gl K [ 7. er ) 
p=P{Sai<Kk|H}= À as (y) dy = ———, (1.88) 
R=1 Ù r (+ 


où L'(u, v) est une fonction gamma incomplète. 
&—0682 
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La figure 1.6 illustre la stratégie écrite dans (1.86). Les courbes 
en pointillé donnent les densités de probabilité initiales correspon- 
dant aux hypothèses Æ, et Æ,. Les courbes en trait continu donnent 
les distributions de la somme des carrés des valeurs échantillonnées 
pour les mêmes hypothèses. Les aires hachurées sont égales aux pro- 
babilités d'erreurs de première et de seconde espèce. 

La grandeur À dans (1.88) et (1.88) pour les trois premiers critè- 
res figurant à la table {1 se calcule directement à partir de (1.86). 
Pour le critère de Neumann-Pearson pour un & donné il vient de 
(1.88) 

K = 0°y2; (1.89) 


où %, est le quantile d'une variable aléatoire distribuée suivant 
une loi du %* avec n degrés de liberté *). Notons que le seuil 


w,(y) 
/ 
! 
I 
| 
LA 
ÿ l d 
KR ZZ 
L SS'hRhRZZ . 


Fig. 1.6. Stratégie de vérification de l'hypothèse sur 
la variance d’une variable aléatoire normale 


K. établi conformément à (1.89), ne dépend pas de la grandeur 6&.. 
En portant (1.89) dans (1.88”) on obtient la relation 


mie (1.89) 


entre la probabilité donnée d'erreur de première espèce «, la probabi- 
lité minimale possible d'erreur de seconde espèce $ et la taille 7 
de l’échantillon, cette dernière est présente dans (1.89) implicite- 
ment, par l'intermédiaire de x% et X-8. Il s'ensuit que la taille de 
l'échantillon avec laquelle on obtient la valeur $ (pour &« donné) 
dépend du rapport des variances 0%/0. 

Sin ©1 on peut utiliser la relation donnant la tendance asymp- 
totique vers la loi normale d’une variable aléatoire distribuée 
suivant une loi du 4° [cf. tome 1, formule (1.43)] et exprimer « et B 


*) La table des quantiles de la loi du z* est donnée dans l'annere VIII. 
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à l’aide de l'intégrale de Laplace [cf. également (1.49) et (1.50)]: 
| an1-F(VE VX), (4.90) 


O 


p-r(VE_ y). (4.90) 


Pour nr — oc, en vertu du résultat général mentionné dans le 
$ 1.2.5, les probabilités d'erreurs tendent vers zéro, car si 6, > 00 
on a 


Remarquons que pour distinguer deux hypothèses voisines 
(a > 1) on doit augmenter la taille de l’échantillon proportionnel- 
0 


lement à Fe : 

Pour la stratégie du minimax, avec Ilso = I, = 0, Il, — 
— ÀIl,o, l'équation donnant la probabilité a priori {mm la moins 
favorable peut en vertu de (1.51), (1.86”), (1.88) et (1.88”) s’écrire de 


la manière suivante (0, > Go): 


(rem TE] 


= fm (STE. on 


et pour rz D 1 (en exprimant la fonction gamma incomplète à l’aide 
de l’intégrale de Laplace) cette équation s'écrit comme suit: 


1—F(c V/2n) 

—_—_—— "1417 D, 1.91” 
| Fe Va) Pere 
: C EE [in Hill |" : 

T7 Le 
(5) 
Si 
1 À 11/2 ” 
C=——%—— | in tr n © | — À. (1.947) 


VE 


4e 
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En vertu de (1.91°) (à la différence de la stratégie du minimax 
utilisée pour la vérification de l'hypothèse concernant la moyenne de 
la taille), pour À — 1, la valeur la plus défavorable de Qrnm 


est _ . On peut trouver cette grandeur à partir de l'égalité c, = c: 
(pour À = 1) qui, compte tenu de (1.91”), peut s’écrire comme suit: 
= Imm _ { % rl 
Fm Pmm Ë ) ee [4r 01 + Oo 


Passons maintenant à la stratégie d'échantillonnage progressif. 
Pour des probabilités d'erreurs données & et B et compte tenu de 
(1.59) elle se formule de la manière suivante : pour 0; > 6, on accepte 
l'hypothèse que la variance d’une variable aléatoire normale est 
égale à 05, si pour l'échantillon observé on a 


S << In [()" ee | ’ (1.92) 


et l'hypothèse Lu la variance est égale à 0 siona 


Da>tnf(a) et]. co 


On continue les observations si ni l’une ni l’autre des inégalités 
(1.92) et (1.92) ne se trouve vérifiée. 

Calculons la valeur moyenne de la taille de l'échantillon néces- 
saire pour qu'en utilisant (1.62) et (1.62”) on puisse prendre une déci- 
sion définitive. À partir de (1.85) on obtient 


Mio = m1 {ln l(x)| 06} = 
= re mu {x | où }+ in ge + In nn , (i.9,3) 
m4 = mm {ln l(x)| 0} -- 


0? — Où 
Cs eo # 
2050? 


+ In . (1.93) 


9 Oo 
m {x* | oc} + In — — 


et par conséquent 


({—a@)ln = + a ln —— 


mi {n | 0%} = 2 - Ê (1.94) 
210 
In + +({—f) In + 
m {n | 0° = 2 G£ . (1 94°) 
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Les relations (1.94) et (1.94) montrent que la taille moyenne de 
l'échantillon nécessaire pour que la décision définitive puisse être 


prise augmente au fur et à mesure que le rapport a tend vers l'unité. 


1.3.3. Paramètre de la loi exponentielle. Soient zx,...., ra 
des valeurs échantillonnées indépendantes distribuées suivant une 
loi exponentielle 


w, (x) = Àe k, 2 > 0,25 0. (1.95) 


On vérifie l'hypothèse simple À, que À = À, contre l'alternative 
simple À, que À = À, > À. Le logarithme du rapport de vraisem- 
blance est dans ce cas 


Li xp nl 
nie... 2) Din =ninfl—(u do) Din. (1.96) 
R=1{ hoc R=1 


La stratégie (pour une taille r de l’échantillon donnée à l’avance) 
se formule de la manière suivante : on adopte la décision y, (le para- 
mètre de la distribution est À,) si 


Ée 1 | 
Y Th DE eu V3 Int — K, (1.97) 
k=1t 


et l’on adopte la décision y, (le paramètre est À) si c’est l'inégalité 
inverse de (1.97) qui se trouve être vérifiée. 

Ainsi, la vérification de l'hypothèse concernant le paramètre 
de la loi exponentielle revient à la comparaison de la moyenne arith- 
métique des valeurs échantillonnées au seuil 


1 ke 
Am D at 
où c dépend du critère de qualité choisi de la stratégie adoptée. 

Comme dans le cas de la vérification de l’hypothèse concernant 
la valeur moyenne d’une variable aléatoire normale, la surface sépa- 
rant le domaine admissible du domaine critique est un hyperplan 
perpendiculaire au vecteur unité et écarté de nr X de l’origine des 
coordonnées (Æ est donné par la formule (1.97”). A la différence de 
(1.67), le domaine critique (1.97) est disposé au-dessous de l’hyper- 
plan séparateur. 

Calculons les probabilités conditionnelles des erreurs de première 
et de seconde espèce. On sait que la somme de rx variables aléatoires 
indépendantes réparties suivant une loi exponentielle suit une loi 
du 4° avec 2n degrés de liberté (cf. tome I, problème 3.16, ainsi que 
le paragraphe précédent). Compte tenu de la normalisation requise, 

n 


In (1.97°) 


on trouve que dans l’exemple considéré la variable aléatoire 24 © x, 
k=1 
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est répartie suivant une loi du #° avec 2n degrés de liberté. Ainsi 


a= P {2 Jane 2noK | Ho} = GRR). (1.98) 


B—P {2a, Ÿ ex > 2nMK | Hi} 1e. (1.98”) 
R=1 


La grandeur Æ dans (1.98) et (1.98’), pour les trois premiers cri- 
tères figurant dans la table 1, est donnée directement par la for- 
mule (1.97”). Pour le critère de Neumann-Pearson, lorsque & est 
donné, on a en vertu de (1.98) [comparer avec (1.89)]: 

1 » 
K — Dnkg Li-0° (1.99) 
Ici yi est le quantile de la distribution du 4° à 2n degrés de liberté. 
Le seuil calculé d’après (1.99) ne dépend pas de TE 

Sin © 1, compte tenu du fait que la loi du 4° tend asy mptotique- 
ment vers la loi normale, les relations (1.98) et (1.98’) deviennent 
[cf. également (1.49) et (1.50)] : 


a F(2V rhok — 2 Vn), (1.100) 
B—1—-F(2VrAiK — 2 Vn). (1.100) 


Pour r —+ o,conformément au résultat général donné au $ 1.2.5, 
les probabilités d'erreurs tendent vers zéro, car pour À, > As on a 


1 À! 
2h — ne In Fe <1 
ho 
h 
2À,K = hi _, m1. 
Âo 


Pour la stratégie du minimaz, pour Iloo = Il, = 0, Ilo = vil, 
l'équation donnant la valeur la moins favorable de la probabilité 
a priori {mm peut en vertu de (1.51), (1.98) et (1.98°) s’écrire 
comme suit : 


T(n)—r {r, nf (22) ")r 


=vT {n, = In | 5 | 22) )'"]}: p=1—g. ‘(1101) 


Passons maintenant à la BU d’échantillonnage progressif. 
Dans l'exemple considéré le domaine intermédiaire Gint, pour & et 
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B donnés, est, en vertu de (1.59) et (1.96), défini par les inégalités 
| h4 [e À \/n° 1 _ 
rayer [EE (5) J<3 Da< 


< nf it (S )"} «4102 


hi — A0 ho ) 
Dans le cas où l’inégalité de gauche n’est plus vérifiée, c’est-à-dire si 
n 
1 1 À, [e À ln 109’ 
ang) Je 440 
h= 


on adopte la décision y, : le paramètre de la loi de distribution est 2. 
[comparer avec (1.97)], et si c’est l’inégalité de droite qui n'est plus 
vérifiée, c'est-à-dire si 


Sang e Gao 


on adopte la décision y, : le paramètre de la loi de distribution est 0. 

Calculons la valeur moyenne de la taille de l’échantillon nécessai- 
re pour qu’il soit possible de prendre la décision définitive. La moyen- 
ne d’une variable aléatoire distribuée suivant une loi exponentielle 


(1.95) étant égale à Es on a à partir de (1.63), (1.63) 


À 
m0 = mi {In E(x)| Ào} = 
In À CP LIN PCT 
— ]n HR (M—h)z=i Fe + In D: (1.103) 
myi=m{lnl(x)|M}= 
À 1 2 , 
in — (io) = —1+in FE. (1.103') 
Par conséquent, pour À > Ào on a 
(1—)jin = + @ ln T5 
ms {n | Ao} = A (1.104) 
mt ln— 
9 #0 
Bin + +(1—p) In 7 
= ; = 1.104 
de M AL lue 
L: 4.0 
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1.4. HYPOTHÈSES COMPOSITES 


1.4.1. Classification des problèmes du choix binaire. Dans le 
paragraphe précédent nous avons étudié en détail le problème de la 
vérification d’une hypothèse simple contre une alternative simple. 
Il s'est trouvé que pour tous les critères de qualité adoptés au début 
de ce chapitre ($ 1.1.6) (critères de Bayes, du minimax, de Neumann- 
Pearson, d’échantillonnage progressif) la décision peut s'exprimer par 
des formules explicites ou des relations asymptotiques simples 
(vraies pour des échantillons de grande taille). Cependant ce problème 
ne reflète pas toujours l’état réel des choses. Souvent l'hypothèse 
vérifiée et l'alternative peuvent être l’une ou l’autre, ou les deux 
ensemble, composites. Dans ce cas on se trouve devant le problème 
du choix de l’une des deux décisions y}; ou yk, correspondant respecti- 
vement à l'authenticité de l'hypothèse Æ ou de son alternative X, 
lorsque À et À représentent en général un ensemble d’hypothèses 
(discrètes ou continues). 

Nous nous limitons dans ce paragraphe à l'exposé de la théorie 
paramétrique où il s’agit de rapporter un échantillon à une 
classe de distributions donnée par un ou plusieurs paramètres. Les 
valeurs exactes de ces paramètres (ou de certains d’entre eux) sont 
inconnues. L'information a priori sur un paramètre quelconque s 
ne fait que nous indiquer que celui-ci appartient à un ensemble de 
valeurs éventuellement possibles d’un intervalle des paramètres (ou 
d’un espace de paramètres s’il s’agit de plusieurs paramètres s, u, 
v, ...). Ainsi, l’espace des états possibles peut ici être considéré 
comme l’espace des paramètres d’une classe donnée de distributions 
des probabilites. 

On peut émettre différentes hypothèses concernant les ensembles 
Sx et Sk des valeurs possibles du paramètre s. Par exemple, une 
hypothèse composite peut être unilatérale du type s > 50. Les ensem- 
bles (intervalles) S, et Sx peuvent être disjoints ou bien avoir des 
éléments communs. 

1.4.2. Stratégie de Bayes. Considérons la stratégie de Bayes 
pour le cas général de la vérification d’une hypothèse simple contre 
une alternative composite. Soient g et p = 1 — q les probabilités 
a priori que le paramètre inconnu s appartienne respectivement aux 
ensembles S,, et Sx disjoints, et soient w;7r (s) et w,k (s) les densités 
de probabilité de ce paramètre sur les ensembles mentionnés. 
Ecrivons la répartition a priori du paramètre s 

W, (s) = quin (s) + pwix (s). (1.105) 
Comme les ensembles S,, et Sk peuvent être discrets, continus ou 
mixtes, les fonctions wir (s) et w,K (s) seront respectivement des 
sommes de fonctions delta, des fonctions continues ou des densités 
du type mixte {cf. tome I, (2.14), (2.15)]. Par exemple, si l’on véri- 
fie l'hypothèse simple s — s, contre une alternative composite, dans 
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le premier terme de (1.105) on a ww (s) — 6 (s — s9). (Remarquons 
que le point s = s, peut dans ce cas appartenir à l’ensemble X, si 
seulement la densité de probabilité w,- (s) en ce point est continue.) 

Tout comme au $ 1.1.2, les décisions possibles y, et y, concer- 
nent l'acceptation ou le rejet de l’hypothèse Æ, c'est pourquoi la 
matrice des pertes (1.15) se trouve conservée. Cependant, à la diffé- 
rence du $ 1.2.2, ici les risques conditionnels [cf. (1.17) et (1.17’)} 
deviennent des fonctions du paramètre inconnu s: 


ro (s) = [oo [1 — @ (s)] + Ioc (5), (1.106) 
r 9 = Mio (9) + Nu 1 — 8 (9), (1.106") 
ou 
a(s= |... Wan (ti ce. 2nlS) dr... dtn, SE Su (1.107) 
G: 


Bts = |... | Wa (ts ec 2nls) dei... dn, SE Sr. (1.107') 
Go 


La moyenne de la fonction de risque peut maintenant s’écrire 
comme suit [cf. (1.16)] 
R= | ro(s)wim(s)ds+ p \ ri(s)wix (s)ds = 
SH SK 


= {Too [1— | Win (S) a (s) ds | + Toi | Win (s)@(s) ds} + 
SH SH 


+ p {To | wir (S)B(s) ds + Ti: [1— | wir (S)B(S) ds |} = 
SK 


SK 


= 91160 + PIT:10 + 9 (Moi — TT00) [ Win (s)@(s) ds — 


SH 
— p (Mio — Us) [ 1 — | a (s)B(S) ds |. 
K 


En remplaçant & et B par leurs expressions (1.107) et (1.107°) 
on obtient 


R= go + Pho— |» - + | [ P(Mio— Mu) X 


Gi 
X | Lx (S) Wa (ris s5s Dr | s) ds — q (Toi — oo) X 
SK 
x | unes (8) Wn (x +. ans) ds | dx ... dun. (1.108) 
SH 
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L'expression (1.108) montre que les mêmes raisonnements que 
ceux du $ 1.2.3 conduisent à la règle optimale suivante basée sur la 
minimisation du risque moyen: on adopte la décision y; (rejet de 
l'hypothèse Æ7) si pour l'échantillon observé on a 


P \ win (S) Wn (Zi, --., Zn |s) ds 


S == 
Ro ho (1.109) 
q \ WiH(s)Wan(ri, ..., ZTn|s) ds Iio — Ii: 

SH 


et l’on adopte la décision y, (acceptation de l’hypothèse 77) si c’est 
l'inégalité contraire de (1.109) qui est vérifiée. 
La règle (1.20) est un cas particulier de (1.109) pour 
Win (s) — Ê (Ss—s5), wir (s) — Ô (s — si). 

Lors de la vérification d’une hypothèse simple contre une alternative 
composite il y a lieu d'utiliser le cas particulier de (1.109) pour 
Win (s) = Ô (Ss — s,). Pour cela on substitue à l'intégrale dans le 
dénominateur la fonction de vraisemblance W, (x, . .., x, | So). 
Les probabilités conditionnelles & (s) et B (s) d'erreurs de première 
et de seconde espèce pour la règle de Bayes (1.109) sont données 
par les formules (1.25) et (1.26), où F;, et F,, sont maintenant des 
fonctions de répartition du rapport des fonctions de vraisemblance 
moyennes : 

\ L'1K (S) Wan (z1, cs Tn S) ds 
Sx 

Î Win (s) Wan (ri ..., Zn]s)ds 
SH 
calculées en supposant que le paramètre s de la répartition de l'échan- 


tillon (x;, . .., x,) appartienne à l’ensemble S; et Sk respective- 
ment. 


Si l'hypothèse Æ est simple on a 


Win (s) — 6 (s — So) 


A(z:, ...) Ln) = 


, (1.410) 


et 


Aa ces 2n)= À wax(s)L(æs, ..., znfs)ds,  (1.110') 
Sk 
c’est-à-dire on a la moyenne du rapport de vraisemblance par 
rapport au paramètre aléatoire. 
Les probabilités totales conditionnelles d'erreurs de première 
et de seconde espèce (pondérées par la densité de probabilité d'appa- 
rition de la valeur correspondante du paramètre s) sont 


a= | win (s)a(s)ds. (1.111) 
SH 
_ | wir (s)B(s) ds. (1.114) 


SK 
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Si les domaines S,;, et SE se recouvrent, on ne peut plus affirmer avec 
certitude si une valeur donnée du paramètre appartient au domaine de 
l'hypothèse ou à celui de l'alternative. Par conséquent, la notion de 
coût pour une décision correcte ou une décision erronée perd de sens, 
Car la décision peut être correcte ou erronée si s appartient à l’inter- 
section des domaines S$,; et Sk. La fonction de pertes faisant corres- 
pondre à chaque combinaison de s € Sy, s € SX et des décisions y,, 
y, un coût Il;,, dépend maintenant des probabilités a posteriori 
d’avoir s € Sy ou s € S% si la valeur du paramètre est égale à s (pour 
des domaines disjoints ces probabilités sont égales à l'unité ou à 
zéro). On peut raisonner de la manière suivante : supposons que l’on 
ait [,, = Il, = 0 et que le coût d’une décision erronée soit propor- 
tionnel à la probabilité a posteriori pour un certain s de tomber dans 
le domaine auquel il appartient, c’est-à-dire 


[Ho (s) = [,5P {s € Sx | s} = ÎI (S;, Yo); (1.112) 
[os (s) = HP {s E Sr | s} = I (Sr, Yi); (1.112) 
où 
P{sESK}P{s|sESKt} _ 
P&HESxIs}= PISE Sr} P{sSISsESKk}+P {SE SH} PISISESH} 
_ pwiK (s) 
_ pmx(s)+quin(s) ? VeHO) 
…. PISE Sn P{s|sES pH} ”_ 
PESa|s= P{SE SK} P{S|SESxI+P1sE Su} P{s]sESH} _ 


_ qui (s) , 
_ puix(s)+quix(s) C9 
Si les domaines S,;; et SX sont disjoints on a P {SE Sx]|s} = 
= 1, P{SESxls} = 1 et Il, (s) = Il,, I (s) = Ty, c'est-à- 
dire qu'on est ramené au cas précédent. 
L'expression donnant les risques conditionnels s'écrit mainte- 
nant comme suit : | 


ro (S) — Hu (s) & (s), 
rs (s) — [lo (s) B (s), 


et pour le risque moyen on obtient la formule 


R=Q | Hu(s)&(s)win (s) ds+p | Tio(s) B(S) wir (s) ds. 
SH S,- 
1.4.3. Maximum de probabilité a posteriori et maximum de 


vraisemblance. Les probabilités a posteriori pour le paramètre 
inconnu s d’appartenir à $}; ou Sk lorsque l’on observe l'échantillon 
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(xz,, - - ., Th) peuvent s’écrire comme suit: 
P{SESH|Ti, --., Tn} = 
q Î w,H (s) Wn (r1 ss Tn | s) ds 


… S pr 
q \ uH(S) Wars. ...s2n|s) ds+p \ wir (S) Wa (ris... TnlS)ds 
Sy SK 
(1.114) 
P{SESK|xi ..., Zn} = 
q uix(s) Wars... Zns) ds 
_ Sk 
q | win(s) Wars, ...,znls)ds+p \ wix(s) Wn(z1, ..., ns) ds 
SH SK , 
(1.114") 


La stratégie cherchée est trouvée à partir de la condition que 
pour rejeter l'hypothèse 77 il faut que la première des probabilités 
mentionnées ne soit pas supérieure à la seconde. On a donc la for- 
mule 


p Ü uwix(s) Wars +. Zn ls) ds 


G 
a ns 1.115 
q | wn(s) Want -.., Zn Âs) ds cs ( ) 
Sx 


qui est un cas particulier de la règle de Bayes (1.109) pour 
os — Too = ho — Il. 

Le critère de maximum de vraisemblance ne repose pas pour le 
cas envisagé sur des considérations rigoureuses d’optimalité. On 
peut éventuellement partir d’une notion purement intuitive du 
maximum de vraisemblance formulée comme suit: on adopte la 
décision y, (rejet de l’hypothèse A) si pour l'échantillon observé on 
a l'inégalité suivante 


max Wa (z1, ..., Tn]s) 


ES; 
“max Wa Gros 20 no 
SES H 


et l’on adopte la décision y, si c’est l’inégalité contraire de (1.116) 
qui est vérifiée. Remarquons que maintenant la stratégie du maxi- 
mum de vraisemblance n'est plus un cas particulier de celle de 
Bayes, comme lors de la vérification d’une hypothèse simple contre 
une alternative simple. 

1.4.4. Critère de Neumann-Pearson. Passons maintenant au 
critère de Neumann-Pearson. Comme nous l'avons montré au 
$ 1.2.4, quand on vérifie une hypothèse simple contre une alterna- 
tive simple, il y a toujours, parmi toutes les stratégies pour les. 
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quelles la probabilité de l'erreur de première espèce (niveau de signi- 
fication) n'est pas supérieure à une valeur donnée «&, une stratégie 
de partition de l’espace des échantillons en domaine critique et do- 
maine admissible qui minimise la probabilité de l’erreur de seconde 
espèce (cette stratégie a une puissance maximale). Lorsque l'hypothè- 
se À est simple et l’alternative À composite on a B = B (s) et l’on 
peut alors essayer de trouver une stratégie de partition de l'espace 
des échantillons en deux domaines G, et G, qui, pour une probabi- 
lité donnée & de l'erreur de première espèce, minimise la probabilité 
de l'erreur de seconde espèce fB (s) {ou maximise la puissance 
41 — B (s)] pour toutes les alternatives simples constituant l’alterna- 
tive composite X. Cette stratégie est appelée uniformément la plus 
puissante (on caractérise de même un critère). Si la stratégie 
uniformément la plus puissante pour la vérification d’une hypo- 
thèse simple contre une alternative composite existe, elle ne diffère 
pratiquement pas de la stratégie analogue correspondant à une alter- 
native simple. En effet. la non-univocité due à ce que S}x est un en- 
semble de valeurs du paramètre s n’a pas d'importance (car le do- 
maine critique ne dépend pas de s € Sx). 

L'existence d’une stratégie uniformément la plus puissante est 
plutôt une exception qu’une règle. Si pour un certain problème cette 
stratégie n'existe pas, on peut essayer de restreindre la classe des 
stratégies et de chercher dans cette classe celle qui se trouve être 
uniformément la plus puissante. Une classe étroite forment des stra- 
tégies dites sans biais, qui satisfont à la condition suivante: la pro- 
babilité de rejeter une hypothèse fausse n'est pas inférieure à la pro- 
babilité de rejeter une hypothèse vraie *). Autrement dit, la proba- 
bilité &« de l'erreur de première espèce se trouve être la limite infé- 
rieure des valeurs de la fonction de puissance 1 — $ (s) pour toutes 
les valeurs de s, c'est-à-dire que l’on a 


1—B() > «. (1.117) 


Si B (s) est une fonction continue, la valeur minimale de 1 —$ (s) 
correspond à s — s, et est précisément égale à & puisque 


1 — B (so) = P {(rir + +, Tn) € Gi | 50} = &. (1.118) 


Une stratégie uniformément la plus puissante, si elle existe, est 
toujours sans biais. Même si elle n’existe pas pour toutes les valeurs 
du paramètre, on peut quand même trouver une stratégie uniformé- 
ment la plus puissante pour un certain intervalle de valeurs. 

On trouve sur la figure 1.7 les courbes de puissance illustrant la 
notion de stratégie uniformément la plus puissante, de stratégie 
uniformément la plus puissante sans biais et de stratégie biaisée 


*) Notons que dans l’exemple du $ 1.1.2 la condition (1.5) est une condi- 
tion simple de l'absence de biais. 
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employées pour la vérification d'une hypothèse simple contre une 
alternative composite. 

Remarquons que, basée sur le critère de Neumann-Pearson, la 
stratégie optimale de vérification d’une hypothèse simple contre une 
alternative composite n’est pas en général un cas particulier de la 
règle de Bayes, comme c'était le cas pour une alternative simple. 

Les notions étudiées ci-dessus peuvent être étendues au cas où 
‘hypothèse vérifiée est composite. Dans ce cas la probabilité de 


f-B(S) 
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Fig. 1.7. Fonction de puissance: 
— stratégie uniformément la plus puissante: -- stratégie 
uniformément la plus Dane non biaise, —:—:.— stra- 


tégie biaigée 


l'erreur de première espèce (niveau de signification) dépend égale- 
ment du paramètre s appartenant à un certain ensemble S,;;. Cepen- 
dant on peut parfois indiquer l’ensemble des stratégies (ensemble 
des domaines critiques) auquel correspond un niveau de significa- 
tion constant & pour tous les s € S,;. Le problème revient alors à 
trouver dans l’ensemble des stratégies celle qui sera la plus puissante 
pour tous les s € S,. Il est évident que tout comme dans le cas plus 
simple envisagé ci-dessus, la solution du problème mentionné peut 
ne pas exister. Il y a alors lieu de la trouver dans une classe plus 
restreinte de stratégies en introduisant des conditions supplémen- 
taires. L'une de ces conditions peut être l’absence de biais, c’est-à- 
dire la condition 


P {(z1 css 03 Zn) EG [SE Su) < 
< P {(xi, TL. Th) € G, ls € SEX (1.119) 


1.4.5. Stratégie du minimax. Si l'on connaît les densités 
win (s) et w,K (s) et si l’on ne connaît pas les probabilités g et p = 
— À — q, on peut prendre la moyenne des fonctions conditionnelles 
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de risque : 
To = | ro(s) in (S) ds, (1.120) 
SH 
n= | r(s)ux (9) ds (1.120) 
SK 


et trouver la stratégie du minimax en égalant les valeurs des risques 
moyens, tout comme nous l’avons fait au $ 1.2.6 dans le cas analo- 
gue lors de la vérification d’une hypothèse simple contre une alter- 
native simple. 

Dans ce cas, lorsque l’on connaît g mais que l’on ignore w, (s) 
et w,K (s), le problème de recherche d’une stratégie du minimax peut 
ne pas avoir de solution univoque et si de plus on ne connaît pas la 
probabilité a priori q, il y a lieu d'introduire d'autres critères de 
qualité. 

1.4.6. Echantillonnage progressif. Malheureusement, dans le cas 
de l’échantillonnage progressif il n’y a pas de situation analogue 
au cas du critère de Neumann-Pearson lorsqu'une même stratégie 
pouvait être la meilleure pour tout s appartenant au domaine de 
l’alternative. La stratégie d’échantillonnage progressif, minimisant 
la taille moyenne de l'échantillon pour une valeur de s, n'est plus 
optimale pour une autre valeur du paramètre. 

On peut poser le problème de la manière suivante. Vérifier 
l'hypothèse composite unilatérale À d’avoir s < s, contre l’alter- 


native composite d’avoir s>s, On impose à la stratégie les 
exigences suivantes : 


1—B()< a, See: (1.121) 
1—B()>1—8, s>s14 > 5. (1.121°} 

Les conditions (1.121), (1.121”) se trouvent remplies si 
1—B(s) =, Ps) —B (1.122) 


et la probabilité B (s) de l’erreur de seconde espèce est une fonction 
non croissante du paramètre s (fig. 1.8). Il est évident que parmi 
toutes les stratégies d'échantillonnage progressif satisfaisant aux 


conditions (1.121) et (1.121’) celle qui consiste à comparer les rap- 
ports de vraisemblance aux seuils 


{ — 
Co = 1— «& ? C1 — _ ? 


minimise la taille moyenne de l'échantillon pour s = s, et s = s. 
En général, la fonction m, {n |s} a un maximum entre s, et s, et 
décroît lorsque s s’éloigne du point de maximum dans l’un ou 
l’autre sens. Il peut se faire que ce maximum soit inférieur à la plus 
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petite des valeurs données de la taille de l’échantillon pour laquelle 
il existe une stratégie (non progressive) satisfaisant aux conditions 
(1.121) et (1.121°). Mais 
comme le montre l’ exemple 
cité dans [7], ceci n’est pas 
toujours vrai. 

Le calcul exact de la 
fonction de puissance 4 — 
—$B(s) et de la taille 
moyenne de l’échantillon 
mi{n|s} dans le cas de 
l'échantillonnage progressif 
est très compliqué. Si 
l'équation transcendante 


Fig. 1.8. Fonction}{de puissance ma {| sell s}= n 


u' (x | So) 
(1.123) 
admet pour solution hk — h (s) *), on a approximativement 
4 — hs) 
RO Go (1.124) 
et 
mifn|s} H=BENIIn a EB(s) In co (1.125) 


wi(z|si) 
ms {ln PAIE | s} 
en supposant que le dénominateur dans (1.125) soit différent de zéro. 
Si cette dernière condition n'est pas remplie, au lieu de (1.125) on 
peut utiliser une autre relation (cf., par exemple, [2], page 223) où 


dans le dénominateur la moyenne est remplacée par la variance du 
logarithme du rapport de vraisemblance unidimensionnel : 


— ] Inc 
Ds TES (1.126) 


Mo { A ——— 
° wi (x | so) 
1.4.7. Vérification des hypothèses composites concernant la 
moyenne d’une variable aléatoire normale. Pour illustrer notre 
exposé, prenons des exemples de vérification des hypothèses sur les 
paramètres de la loi normale. Commençons par la vérification de 
l'hypothèse simple H selon laquelle la moyenne d’une variable aléa- 
toire normale est égale à a, contre l'alternative composite K, selon 
laquelle cette moyenne est un nombre réel différent de a,. On suppose 
connue la valeur exacte de la variance 0° d’une variable aléatoire 
normale. De plus, on suppose que les éléments de l'échantillon 
d’après lequel on vérifie l'hypothèse soient indépendants. 


*) En vertu de (1.123) on a h (so) = — h (sy) = 1. 
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Pour obtenir la stratégie de Bayes il faut se donner les grandeurs 
c*,u — g/P ainsi que la distribution a priori de la valeur moyenne 
lorsque c'est l'alternative X qui est vérifiée. Supposons que cette 
distribution soit également normale de paramètres (a;, 6°). On ob- 


tient alors à partir de (1.110) pour wy (s) = 8 (s — a;) l'expression 
suivante pour la fonction A (x;, ..., zh): 


Ari. Poe _— > es ve VE x 


_ sÿ° _ 1 


‘) 
(5) LS 
o Th — 4] 


itn(&) (ZE) : 


d'où la stratégie de Bayes s’énonce comme suit : on rejette l’hypothè- 


se simple À selon laquelle la moyenne est égale à a, si pour a, > a, 
on à 


O1 \° 

n US n 

| "el a) (5 a-a) 
n à LE L n0? | adj —ag \ ut - 

= To #1 


IS NT 


où c = uc*. Pour c — u on obtient la stratégie correspondant au 
maximum de probabilité a priori. 

Considérons maintenant le critère de Neumann-Pearson. Comme 
nous l’avons mentionné au $ 1.3.1, lors de la vérification de l’hypo- 
thèse simple sur la valeur moyenne contre l'alternative simple, la 
stratégie optimale pour ce critère, déterminée par le seuil (1.76), 
ne dépend pas de l'alternative (à condition que s> a, ou s << &,) 


C'est pourquoi la stratégie, selon laquelle on rejette l'hypothèse 
H si 


i n 
_ Da > a+ = Ta (1.125) 


est uniformément la puissante par rapport à l'alternative com- 
posite pour laquelle s > a,. Si s << a,, la stratégie uniformément la 
plus puissante pour une alternative composite détermine le domaine 
5—0682 
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critique par l'inégalité 
n 
1 ( 
— Zn< Qo— 7 Ta (1.129) 


Cependant, si en qualité d’alternative composite on considère 
toutes les valeurs réelles, la stratégie uniformément la plus puissante 
n'existe pas. La fonction de puissance pour le critère (1.128) en vertu 
de (1.77) s'écrit *) 


—B()=1—F (r— 2 Va). (4.130) 


Pour s > ay, 1 — B (s) > &, la fonction de puissance croît d’une 
façon monotone avec s, et 1 — B (a,) = «&. Mais si s <a, on a 


+BG) 


lo | $ 


Fig. 1.9. Fonction de puissance pour la verification de 
l'hypothèse sur la moyenne d'une distribution : 


stratégie bialisée: --- stratégie uniformément la 
plus puissante non bialisée 


1 — B (s) < «& et la fonction de puissance est décroissante lorsque s 
diminue. Donc le critère (1.128) est biaisé. 

On peut montrer [6] que la stratégie uniformément la plus puis- 
sante est dans ce cas déterminée par le domaine critique 


Z 9 
LS -af> = : 


La fonction de puissance correspondant au critère (1.131), donnée sur 
la figure 1.9 en pointillé, est de la forme 


1—B(s)= 
=1—[F(ro- 0 Vr)-F(-ze- EU Vr)]. (1432) 


Œ 
2 ce 


(1.131) 


*) Notons que pour s = a; la formule (1.130) ne diffère en rien de (1.77). 
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La fonction (1.132) a un minimum pour s = «a, et 
1—B(ao)=2—2F(ra)=a 


Pour s > a, la fonction (1.130) est supérieure à (1.132) car pour un 
c > 0 quelconque on a 


F(za—c)—F(ra—c)>F(—za —c). 
2 5 


Pour s = a, les deux fonctions coïncident, mais pour s << à, la puis- 
sance du critère (1.128) est inférieure à celle du critère (1.131). 

Considérons enfin la stratégie d'échantillonnage progressif de 
vérification de l'hypothèse unilatérale, selon laquelle la valeur 
moyenne d’une variable aléatoire normale s < a,, contre l’alterna- 
tive composite que s => &. Conformément au $ 1.4.6, imposons la 
condition supplémentaire [cf. (1.121) et (1.121’)] selon laquelle pour 
a et B donnés, on ait 


1—B(S) <a, S < So 
1—B(>1—-$,s2>a>5s. 


Pour calculer la fonction de puissance 4 — B (s) il faut résoudre 
l'équation transcendante (1.123). Le premier membre de cette équa- 
tion pour l'exemple étudié est égal à 


ms {exp[ 5e [(z— So) — (x —s)"] ]|s} = 


= TE | exp (#= _" h) x 


oo 


X exp {5 [(z— s)* + 2 (so — 51) re) dx = 


= EXP ee A he + 992 Ge 5 — (os) A}. 


En vertu de (1.123) il faut égaler cette expression à l'unité ce qui 
équivaut à annuler l’'exposant de l’exponentielle, c’est-à-dire 


(S — s°) h — s° + [s — (so — 51) ÀF° = 


d’où 
Si +so—2s _ 2(S— 50) 
RE (1.133) 
La formule (1.124) permet alors de trouver 
j=2 "0 
cs. Fi 
1—B(s) = RER —— (1.134) 


#1— 50 __ 81 — 30 
Ci Co 
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où 
14 — 
co: Ci = à B . 
A partir de (1.133) et (1.134) on trouve 
ee. _ 1 — © 
h (So) == 1, 1 —B (so) — 2 (1.135) 
RS 


h(s)=—1, 1-B(s)=—%=1—p. (1.135) 


do J9 +S Ÿ S 
2 


Fig. 1.10. Echantillonnage progressif employé pour la 
vérification de l'hypothèse sur la moyenne d’une 
distribution : 


— fonction de puissance; --- taille moyenne de 
l'échantillon nécessaire pour qu'une décision puisse être prise 


(fig. 1.10) de zéro (pour s — — oo) à l’unité (pour s — oo). Pour 
Si + So 


$ — 79. on a 
l 1— a 
S1-+ So . In Co d B 4 136 
BE) == Ta=oa=p (4-19) 
C ap 


Pour calculer la moyenne conditionnelle, dépendant de s, de la 
taille de l'échantillon nécessaire pour qu'une décision soit prise, on 
trouve en vertu de (1.125) 


wi(zisi) L Sÿ— ST Sos \ _si—s0 (s 1%) 
{ner (5) om (net nt cfs) + AE (5, 


et par conséquent 


mi {r|s} =Ù 


—$(s)]In c; +8$(s) in co 
S1—— SQ (s— LE 


(1.137) 
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L'expression (1.137) montre que pour s — + oo on a my {n | s} — 

— 0 et aux points s = s, et s = s [cf. (1.135), (1.135°)] 
a In ci +(1—@) In Co 
__ (s1—50)° . (6480) 

20° 
(4—$) In c;+Blnc 

(s1— S0)° . 

20? 
En fait, ces formules ne diffèrent en rien de (1.82) et (1.83). 


Pour s — 228 le dénominateur de (1.137) s’annule et pour cal- 


me: {n | so} — 


mi{n|si}= 


(1.139) 


So't'S à : : ; 
culer min 4} en ce point, il y a lieu de calculer maintenant 


le second moment du logarithme du rapport de vraisemblance 
ms {ln l(x)|s}=m, (A (esp 5} = (GS, (1.140) 
En substituant (1.140) dans (1.126) on obtient 
m, {" eu | _ Incolne: 


5 [ETS 
| 


Sur la figure 1.10 la courbe en pointillé donne la taille moyenne 
de l'échantillon en fonction de s (elle est construite pour &« = B — 
= 0,1; voir également la table 2 du $ 1.3.1). On voit que la fonction 
So + 54 

2 


(1.141) 


m, {nr |s} a un maximum pour s — , celui-ci dépassant à peu 


près de 40 % la valeur de la taille moyenne minimale de l'échantillon 
nécessaire pour prendre une décision dans le cas de l’échantillon- 
nage progressif de vérification de l'hypothèse simple s = s, contre 
l'alternative simple s — s,. Ce maximum est tout de même inférieur 
à la taille des échantillons prélevés d'après une stratégie d’échantillon- 
nage fixe pour les mêmes valeurs des probabilités conditionnelles 
d'erreurs (sur la figure 1.10 cette taille est marquée d'une croix). 

1.4.8. Remarque sur les stratégies à plusieurs alternatives. Nous 
nous limiterons au cas du critère de qualité de Bayes *). Comme nous 
l'avons noté au $ 1.1 pour choisir parmi m + 1 hypothèses simples 
H;(G =0,1, ..., m) celle qui est vraie, on peut utiliser le critère 
de minimum du risque moyen {cf. (1.8)]. La stratégie donne le mode 
de partition de l’espace des échantillons en m + 1 domaines disjoints 
et attribue (pour une stratégie non randomisée) à chacun des domai- 
nes G, une des décisions y. (l'hypothèse H4 suivant laquelle on 
a l’état s2 de l'effet étudié est vraie). 


*) Ces dernières années on a entrepris l'étude des problèmes à plusieurs 
alternatives. Dans [7] on peut trouver des exemples intéressants de procédures 
basées sur le critère de Neumann-Pearson et dans [11] les procédures d'échan- 
tillonnage progressif, appliquées aux problèmes à plusicurs alternatives. 
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La probabilité pour que d’après l’échantillon observé x, . .., æn 
on adopte la décision y: alors qu'en réalité c’est l'hypothèse H, 
qui est vraie sera égale à 


P{yxlH;} = P{(rs...,2n)EGn|s;}= 


_ | . | Walz -..stn|s)dmi...dtne (1.142) 
Gk 


En portant (1.142) dans (1.8) on obtient l’expression du risque moyen 


R=YY Pal | 4 Walt... œnls)dri... den (1.143) 


J=0 Rk=0 CR 


qui dépend du mode de partition de l'espace des échantillons en 
domaines Gx7, k — 0, 1, ..., m. 

Un raisonnement analogue à celui utilisé pour trouver l’inéga- 
lité (1.20) permet de démontrer que pour la valeur minimale du 
risque moyen À l’espace des échantillons G est divisé de telle sorte 
que le domaine Gy (4 — 1, ..., m) est donné par un système de m 
inégalités, soit 


s | | PiWn (z4, cs Tn | si) 
2 (Ti; — Tin) Mean ele) À (1.144) 


j=0,...,m; j Æk. 


Le domaine G, est alors donné par la condition évidente 
Go=G— Ÿ Gr. (1.144) 
Rk=1 


Pour m = 1 le système (1.144) contient une seule inégalité coïnci- 
dant avec (1.20). 
En introduisant les nouvelles variables 
Pi Wn(zis..., Zn | Si) 
Po Wan (Zi, -.., Zn | So)” 


i—=1,...,m, (1.145) 
c'est-à-dire en représentant les points de l’espace des échantillons 


dans l'espace à m dimensions des rapports de vraisemblance, on peut 
écrire le système d'inégalités de la manière suivante: 


ps li(a SE D 


2 (is — Tux) vi > Mon — Ho j=0, ..) 7, jÆk. (1.146) 


Le domaine correspondant au système d’inégalités (1.146) est donné 
par l'intersection des hyperplans dans l’espace à m dimensions. 
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Iilustrons ce qui vient d’être dit sur l'exemple simple d’un pro- 
blème à plusieurs alternatives, lorsqu'on sait a priori que trois états 
Sor S1 S2 Sont possibles. En vertu de (1.146) pour m = 2 la stratégie 
de Bayes peut se formuler com- 


me suit : c, | # 
1) on adopte la décision y, Y4,2>! 
que l'on a l’état s, si À Y, > 32 
(io — is) Yi + (To — Ts) y: > 
nl f Fe C2|?2 
> Ils, — IT» (1.147) Cole. V2! 
(ie — is) y + (ze — Mas) y2 > O<Yyp£! V2 DV: 
> [oi — Ho; (1.147) 
2) on adopte la décision 2 
que l’on a l’état So si 1 D d dl dl 1 TT lt 
(, { Y 


(io — 2) Yi + (zo — 
za) va 2 Hoz— os (18) Le 711. Domai 
- Me spondant 
(ii —Ilsz) y + (au — Fe re dune En 
— [22) ye > os — [os (1.148”) 


3) on adopte la décision y, que l'on a l’état s, si 
(io — Us) Yi + (zo — Îles) Ya << Hoi — Hoos (1.149) 
(io — Îs2) Yi + (zo — 22) Y2 << Toz — Hoo- (1.149°) 
Jci les deux rapports de vraisemblance : 


__ Pi Wnry... Zn | 51) 


D po Wnis... 2n | 50) 


P2 Wnzis -.., Tn|S2) 
Po WnÜzis ..., Zn | So) ? 


Po=1—pPi— Po; 


donnent la transformation fonctionnelle d’un vecteur aléatoire à n 
dimensions de composantes (x, . .., z,) en un vecteur aléatoire 
plan de composantes non négatives (y,, y2). 

Les systèmes ci-dessus de deux inégalités déterminent les domai- 
nes disjoints du premier quadrant dans lesquels peut tomber ce 
vecteur aléatoire plan. Le choix d’une décision est dicté par l’appar- 
tenance du vecteur à tel ou tel domaine. 

Sur la figure 1.11 on peut voir trois domaines correspondant aux 
trois décisions possibles pour le cas particulier où les coûts des déci- 
sions correctes sont nuls, et les coûts des décisions erronées sont 
égaux. 
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1.5. CAS GÉNÉRAUX DU CHOIX D'UNE DÉCISION 
PARMI DEUX POSSIBLES 


1.5.1. Cas de plusieurs paramètres inconnus. Jusqu'à présent 
nous n’avons envisagé que les problèmes de vérification des hypothè- 
ses composites concernant un paramètre d’une distribution contre 
une alternative composite relative à ce paramètre. Les résultats 
peuvent être généralisés au cas où la distribution dépend de plu- 
sieurs paramètres. 

Supposons que la distribution d’une variable aléatoire dépende 
de M paramètres s,, ..., Sy. On vérifie l’hypothèse composite A 
selon laquelle ledit ensemble de paramètres appartient au domaine 
S;yr de l’espace à M dimensions contre l'alternative composite X 
que cet ensemble appartient au domaine S%. 

Si l’on connaît les probabilités a priori g et p = 1 — q d'apparte- 
nance de l’ensemble s,, . .., sy aux domaines S, et S- disjoints, 
ainsi que les densités de probabilité conjointes ways (Sy, + - +, Su) 
et warx (S13 - - ., Smu) de cet ensemble dans les domaines S; et Sx 
respectivement et la fonction de pertes, la stratégie de Bayes généra- 
lisant (1.109) est dans ce cas : on adopte la décision y, (rejet de l’hy- 
pothèse Æ7) si pour l'échantillon observé on a 


A(zxi, PRE Zn) = 


\ CRE NATAQT e. 7? SM) Wa (rt .….. Zn | St ...7 Sir) dsi ... dS ar 
SK 
ER "  _ 
\ ….. \ Las H (Sis …., SM)Wn (Tres Zn | Si 1 Sr) dsy ... dSar 
°H 


>+ c*=—c. (1.150) 


Les probabilités conditionnelles totales des erreurs de première 
et de seconde espèce sont 


== | 5e | War (Si, + Su) @ (Si, - +, Sar) dSi . . . dS1r, (1.151) 
Sy 


B — Î der | U\1H (Si, Ses Sxr) B (51, see Sur) ds; à dSar: (1.152) 
in 


« 


ou 
œ (s, . .., Su) = P {A Z>c]|(a, ..., Su) € Su}, (1.153) 


B (s, -.., Sa) = P {A <cl(s, ..., sw) E Sx). (1.194) 


Si l’on ne connaît pas la probabilité a priori p, la valeur la moins 
favorable de cette probabilité Pmm peut être trouvée en égalant les 
fonctions de risque conditionnelles dont on a pris la moyenne sur les 
domaines S, et SX cf. $ 1.4.5, ainsi que (1.106) et (1.106”)]. En por- 
tant Pmm €t {mm = 1 — Pmm dans le second membre de l'inégalité 
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(1.150) on obtient la stratégie du‘ minimaz pour le cas de plusieurs 
paramètres inconnus. 

La recherche d’une stratégie optimale d’après le critère de Neu- 
mann-Pearson dans le cas de plusieurs paramètres inconnus est dans 
le cas général un problème mathématique ardu. A la fin du $ 1.4.4 
nous n'avons fait que mentionner la possibilité de généralisation 
des notions de base (l’état actuel de cette question est exposé dans 
[7]). Tant dans le cas de la vérification d’une hypothèse simple con- 
tre une alternative simple, que dans le cas de la vérification d’une 
hypothèse simple contre une alternative composite, l'optimisation par 
le critère de Neumann-Pearson a été obtenue pour une classe de stra- 
tégies pour lesquelles la probabilité d'erreur de première espèce 
(niveau de signification) ne dépassait une valeur donnée &. Dans cer- 
tains cas de vérification d’une hypothèse composite contre une alter- 
native composite on peut parler d’une classe de stratégies (c'est-à- 
dire indiquer les domaines critiques G;) pour lesquelles 


P {(z, ...) Zn) € G., | (s1, ...) SM) € Sx} = ©. (1.155) 

Si dans cette classe de stratégies on peut en trouver une qui minimise 

la probabilité d'erreur de seconde espèce ou a une puissance maxi- 
male, c'est-à-dire si 

1— 8 — P {mu ..., zn) € Gi ls - .., sw) € Sx},  (1.155°) 


on dit que cette stratégie est uniformément la plus puissante. On 
peut restreindre la classe des stratégies optimales en introduisant la 
condition de l'absence de biais (1.119). 

Nous nous limiterons à un exemple où il y a lieu de vérifier, 
d’après le critère de Neumann-Pearson, l'hypothèse composite selon 
laquelle l'échantillon x,, . .., zx, appartient à une loi normale de 
moyenne a, et de variance inconnue 0°, contre l’alternative composite 
selon laquelle cet échantillon appartient à une loi normale de 
moyenne a = a, et de variance inconnue. Considérons une variable 


aléatoire [cf. (2.153)] 


lt (Ti 55 ln; a) 


5 De-o[ D (a-tDa) PE  d450 
i 1 i=1{ 


1— | = 


qui pour des z; indépendants et normalement distribués de paramè- 
tres (a, ü*) suit une loi de Student S,_, (t) à nr — 1 degrés de liberté 
[cf. (2.154)] ne dépendant pas de a ni de 0°. Ainsi, les domaines cri- 
tiques G, de l’espace à r dimensions des échantillons auxquels sont 
rapportés les échantillons (x,, . .., x,) satisfaisant pour a = a, à 
la condition 


le 
\ Sast(t)dt= a, (1.156) 


ti 
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correspondent aux stratégies mentionnées plus haut pour un niveau 
de signification constant. On peut montrer que pour & => as, parmi 
ces stratégies, uniformément la plus puissante est celle pour laquelle 
au domaine critique correspondent des valeurs de la variable aléa- 
toire £ LPS le seuil &, [c'est-à-dire que dans (1.156”) on a &> — 
= OO, L — Le . 

Autrement dit, on rejette l’hypothèse Æ7 selon laquelle la valeur 
moyenne est égale à a, pour une variance inconnue si 


LS Data)" (457 
i=1 


nr L 
i=i Rk=1 


où t, est le quantile de la loi de Student. Cette stratégie est unifor- 
mément la plus puissante par rapport à l'alternative composite 
a > Gp. 

En comparant la stratégie (1.157) avec la stratégie analogue 
(1.128) pour la vérification d’une hypothèse simple relative à la 
valeur moyenne contre une alternative composite où la variance 
de la loi normale est connue, on remarque que dans (1.157) la va- 
riance inconnue est donnée par l'expression dans les crochets et le 
quantile x, de la loi normale a cédé place à celui de la loi de Student 
{pour &« donné). 

Avant de calculer la probabilité d'erreur de seconde espèce (ou la 
puissance 4 — f) lorsque l'on utilise la stratégie (1.157), il faut se 
rendre compte que si les z;, i— 1, ..., n, suivent une loi normale 
de paramètre a £ &, la variable aléatoire f£ (x, . . ., Ta; @o) est 
distribuée suivant une loi de Student non centrée 


wi(t; FE 


ue (=) van -5 


x fe 'epf—tfo+ (y 2-8) ]} à 4459 
(4) 
où Ô est le paramètre de non-centrage égal à 


ô=—"2Vn. (1.158) 


En utilisant (1.158) on peut écrire l’expression de la fonction de 
puissance de la stratégie (1.157) sous la forme suivante 


1—6 (65) = | wi(t; 6)dt, (1.159) 
to 


où {, est le quantile de la loi de Student non centrée. 
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Si a << a la stratégie uniformément la plus puissante de véri- 
fication de l'hypothèse composite selon laquelle la valeur moyenne 
est égale à a, pour une variance inconnue détermine le domaine cri- 
tique par l'inégalité [cf. (1.129°)] 


Da (a-t3e)]" de (400 
k=1 i=1 


i=1{ 


Dans le cas où l'alternative contient tous les a réels, il n’existe 
pas de stratégie uniformément la plus puissante. D'une manière 
analogue à (1.131), la stratégie suivant laquelle l'hypothèse H est 
rejetée si 


LDG&-a) >| 2 (a 32) + (1.161) 


1—= 


est la stratégie la plus puissante non biaisée avec une probabilité 
d'erreur de première espèce égale à @. 
La probabilité d'erreur de seconde espèce est dans ce cas égale à 
ta/2 
B (5) = | ui(é; Ô) dt. (1.162) 
—lx/2 


Notons en conclusion que la généralisation de la méthode d'’échan- 
tillonnage progressif au cas de plusieurs paramètres est basée sur des 
considérations analogues à celles qui ont été exposées au 8 1.4.6, 
avec des complications liées au passage de l’espace unidimensionnel 
à l’espace multidimensionnel des paramètres. 

1.5.2. Echantillon d'une distribution multidimensionnelle. Jus- 
qu'à présent nous avons étudié les problèmes liés à la vérification 
des hypothèses concernant un ou plusieurs paramètres d’une fonc- 
tion unidimensionnelle de la variable aléatoire E d'après un échan- 
tillon dont les éléments ont été prélevés sur un ensemble de valeurs 
possibles de cette variable aléatoire. On peut généraliser le problème 
au cas de la vérification des hypothèses sur des paramètres de la 
distribution multidimensionnelle d'un ensemble de variables aléatoi- 
res E1, ..., EN. Les éléments d’un échantillon multidimensionnel 
de taille nr seront respectivement des groupes de NW’ nombres 
Tiho Lohs + + + TNhy K = À, ..., R qui peuvent être considérés 
comme les composantes d’un vecteur x;. L’échantillon sera alors une 
matrice carrée X de NV X n éléments: 


X = [za i=1,..., N; k=1,...,n. (1.163) 
Nous allons illustrer la généralisation de la théorie de vérification 


des hypothèses concernant les paramètres d’une distribution mul- 
tidimensionnelle sur l'exemple d’une distribution normale à W di- 
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mensions. En utilisant les notations vectorielles [cf. (2.57), tome I] 
on peut écrire la densité de probabilité multidimensionnelle de N 
variables aléatoires normales liées sous la forme suivante: 


dx (x) — = — exp [+ x—a) M”! (x— a) | ; (1.164) 
(2x) = V/det M 
où a est le vecteur colonne des valeurs moyennes; M est la matri- 
ce de corrélation, le signe « prime » indique qu’il s’agit d’une matri- 
ce transposée. 

Le problème simple de vérification de shypothèses peut ici se 
formuler comme suit: soit une valeur échantillonnée x (un vecteur) 
de la distribution (1.164). On émet l'hypothèse simple A, selon la- 
quelle cette valeur suit une loi normale de vecteur des moyennes 
a, et de matrice de corrélation M, contre l'alternative simple A, 
que cette valeur suit une loi normale de vecteur des moyennes a, 
et de même matrice de corrélation M. 

Le logarithme du rapport de vraisemblance s'écrit dans ce cas 
comme suit: 


pp ex la) 
In /(x) = In la) 


= (Ra) M (x a) — (x — 0) M (x — a5)] = 


= x'M1(a—a5)—+ (a+ ac) M (aa). (1.165) 


La structure de cette expression est analogue à celle de (1.66). 
Les deux formules mentionnées coïncident pour W = n = 1. 

La stratégie se formule maintenant comme suit: on adopte la 
décision ÿ, (la moyenne est a,) si pour le vecteur observé x on a 


x'M°1 (a: — ao) > (a: + ao) M1 (a; — 8) + In C, (1. 166) 


et on adopte la décision y, (la moyenne est a,) si c’est l'inégalité 
inverse de (1.166) qui se trouve vérifiée. Comme précédemment, la 
grandeur c dépend du critère choisi (d’après les données a priori 
dont nous disposons sur l'appartenance à l’une des deux distributions 
et sur la fonction de pertes). 

L'expression (1.166) montre que la procédure de vérification de 
l'hypothèse concernant la valeur moyenne d'une loi normale multi- 
dimensionnelle se réduit au calcul d’une fonction linéaire des compo- 
santes du vecteur des résultats des observations et à la comparaison 
au seuil 


K=—- (a+ ao) M'1(a—@)+inc. (1.167) 


Pour le calcul des probabilités conditionnelles d'erreurs de pre- 
mière et de seconde espèce, on peut utiliser les formules (1.25) et 
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(1.26), c'est-à-dire la représentation de l’espace à N dimensions du 
vecteur x à l’aide du domaine unidimensionnel du rapport de vrai- 
semblance. En vertu de (1.165), In Z (x) est une variable aléatoire 
normale. C’est pourquoi il suffit de calculer sa moyenne et sa va- 
riance pour les deux hypothèses H, et H,. On a 


ms {ln L(x)| Hi}= m1 {x} M Tr. + (ai + ao) M” (ai — ao) — 
= a, MT (a; — ac) — TZ = (ai + a0) M . — 80) = 


a _ (ai — ao) M (ai — ao) 
et avec les notations 


d = (a, — ao) M”? (a, — a), (1.165) 
on obtient 
ma (in L(x)| #3} = <<. (1.169) 
D'une manière analogue on trouve 
ma {ln L(x)| Ho}= — +. (1.170) 


M: {inl(x) 14} = M: {inl(x)| A,} = à. (1.171) 
Les probabilités d'erreurs de première et de seconde espèce sont 
alors égales à [cf. (1.73) et (1.73')] 


a=P{ini(x)>nc|H}=1—F(S+2E), (1172) 


B=:P{in/(x) <inc|H;}=F (—5+ ne). (4.172) 


Si les résultats des observations sont représentés non pas par 
un seul vecteur x mais par nr vecteurs xx, À —= 1, ..., n, c'est-à- 
dire par la matrice X de dimension N X n (cf. (1. 163)], le problème 
de vérification des hypothèses concernant la valeur moyenne d’une 
distribution normale multidimensionnelle se réduit au précédent, 

n 


si l’on remplace x par la moyenne arithmétique Z > x4 et la matrice 
k-1 

M par 2. La grandeur d dans (1.172) et (1.172) doit être remplacée 

par d, — dV n. 

1.5.3. Méthodes non paramétriques de vérification de l’hypothèse 
de symétrie d'une distribution. Dans les cas non paramétriques, 
lorsque l’on ne connaît même pas la forme de la distribution à la- 
quelle appartient l'échantillon, la stratégie peut parfois être basée 
sur l’utilisation d'échantillons ordonnés. Supposons par exemple 
que l’on vérifie l'hypothèse Æ concernant la symétrie éventuelle par 
rapport à l’origine (parité) de la densité de probabilité w, (x) à la- 
quelle appartient l'échantillon z;, ..., x,. 
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Introduisons le compteur de signes: 
205 4, z2>0, 
T)'= 
0, z<0. 


L'une des stratégies possibles s’énonce comme suit : on rejette l’hy- 
pothèse FH, c'est-à-dire que l’on adopte la décision y, consistant 
en ce que 


(1.473) 


wi (x) wi (—2x) (1.174) 
Fi (2) 1 — Fi (—2), (1.174) 


si pour un échantillon z,, . . ., x, de taille donnée non a 


oÙU 


Su u(x)>c, (1.175) 


— 
_— 


et on adopte la décision y, que la fonction w, (x) est symétrique 
par rapport à l’origine si c’est l'inégalité inverse de (1.175) qui se 
trouve être vérifiée. 

Comme les éléments zx; de |’ échantillon sont indépendants et ont 


même distribution, la somme Du (a) suit une loi binomiale 


(cf. $ 1.2, tome ÎÏ) de paramètres ñ tp = P{x,> 0} = 1 — F (0). 
L'hypothèse H concernant la symétrie de w, (x) par rapport à l’ori- 
gine est équivalente à l'affirmation selon laquelle 


F(0)=+ (1.176) 

l’alternative Æ est alors 
Î , 
F,(0)£—. (1.176) 


Ainsi, la somme dans (1.175) est distribuée suivant une loi bino- 
miale de paramètres (7, 5 pour l'hypothèse F7, et suivant la même 


; : à 1 : : 
loi mais de paramètres (r,p #3) pour l’alternative X. On peut 


facilement écrire les expressions des probabilités conditionnelles 
d'erreurs pour le critère (1.179). 


La probabilité conditionnelle d'erreur de première espèce est 
égale à [cf. (1.22), tome I] 


a=P{lH}=P{S u(a)>c|H} = 


i1—=1 


D (2)(S)" =1-2i0—10, t+1), (1477) 
k=[e]+1 2 
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où Z,(n — m, m + 1) est le rapport de la fonction bêta incomplète 
à la fonction bêta complète et [c] la partie entière de c. 

La probabilité conditionnelle d'erreur de seconde espèce est éga- 
le à 


B=P{rlA}=P {Su()<c|K}= 
i= 
[c] 
— > (° | p'(4—p}"" =; ,(n—1{cel, {el +1). (1.178) 
1=0 


En vertu de (1.177) et (1.178) pour p = 1 — F, (0) > - le cri- 


tère (1.175) n'est pas biaisé. En effet, pour q = 1 — p << > en vertu 
de l'inégalité 

Ja 
Bin(n—m, m+1) = (: rl A—:)" d> 

” 


q 
> | M1 (A4) ds B,(n—m, m1) 
on a l'inégalité 
Li}: (nr — [cl), [cl + 1) > l; (nr — [cl], [cl + 1), 
et, par conséquent, 
1—6>a« 
Pour nr grand, la loi binomiale tend vers une loi normale (cf. 


$ 1.2.2, tome I) et les formules (1.177) et (1.178) peuvent s’écrire 
comme suit : 


Ll+1—S 
Pret 3 
= F oui ME 4.180 
P VE ! 


où F (x) est l'intégrale de Laplace. 

Pour un niveau de signification & donné (probabilité d'erreur de 
première espèce) le seuil c dans le critère (1.175) est donné par la 
relation suivante 


[c] = 7 +51, (1.181) 


où z, est le quantile de la loi binomiale (ou asymptotiquement nor- 
male pour nr > 1). En es “à 181) dans (1.180) on obtient 


A1] 


p-F (1.182} 


VrA—p) 
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Cette relation montre que, pour une stratégie non biaisée ( p > 5): 
pour 7 —+ oo, la DROPASIUNS d'erreur de seconde espèce 6 —> O. 
Si p=1—F, (0) < - la stratégie non biaisée sera celle pour 


laquelle l'hypothèse H est rejetée lorsque l'inégalité inverse de 
(1.175) est vérifiée. 
On a alors 


a=P{Zu(a)<e|H]=11(r—lc}, (e]+1), (4.183) 


B= P (Zu(z)>c]|A) —1—1;,(n—f[c], [c]+1) (1.183) 


et pour D — il vient de (1.183) et (1.183) 1 — B > «. Pour a 
donné, le seuil c est donné par l'égalité 


LT 
C = + — À. 1.184 
[c] = 7 ( ) 

On peut également formuler une stratégie bilatérale en vertu de 
laquelle l'hypothèse Æ concernant la symétrie de la distribution est 
rejetée quand tant le nombre total d'éléments positifs dans 
l'échantillon que le nombre total d'éléments négatifs dépassent un 
certain seuil c, c'est-à-dire 


2 u(xi)>c, n— à u(rxi)>c 
ou 
c< Du(r)<n—c. (1.185) 
i=1 


Les PROS d'erreurs sont alors égales à 
n- S 


(4) (2) = 


= Li (cl +1, n— {cl} —71(r—{cl, [ce] + 1), (1.186) 


a — p{<y u(a)<n—c|H}= 
ii k=[c}+1 


p=1i—P? L<S u (x) <n—c|k} — 
i «1 


n—[c]-1 


=1— > (r)rt-pt- 


I—[c)+1 
— 1— 7: ([c] + 1, nr — [c]) + Li-p (nr — [c}, [c] na 1). (1.187) 
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Pour x © 1 les seconds membres de ces formules deviennent des 
intégrales de Laplace 


1 72 HET) 
a l— — Vrz — , (1.158) 
me F [c)+1—np F [c]+1—n(1—p) : 4.189 
P Ebrer | di VnpU—p) | 


Fixant *) le niveau de signification &« on trouve à partir de 
(1.188) la grandeur du seuil c dans (1.175): 


2 


où Tite est le quantile de la loi normale. 


En ya (1.190) dans (1.189) on obtient 


VE Zita + (A4—2p) tite —+ (1—2p) 
p—F - +F : 


VrrA—p) Vrp({—p) 


(1.191) 


Les probabilités d'erreurs peuvent être diminuées si au lieu de 
(1.175) on utilise un critère plus puissant : l'hypothèse sur la sy mé- 
trie de la distribution est rejetée si pour l'échantillon x;, . .., x, 
de taille donnée non a 


À Du(zitz)>c, (1.192) 
J=1 i=) 
où u (x) est une fonction donnée par (1.173) (cf. [7], $ 6.9). 


Problèmes 


ee. Tn 


1.1. Soit Æo pou simple selon laquelle l'échantillon x:, . 
appartient à la distribution exponentielle 


wir) =e x, z>0, (1) 


et 11, l'alternative simple selon laquelle cet échantillon appartient à la distri- 
bution normale unilatérale 


__ 
n@=y Le < + 4€ 0: (2) 


*) Comme n d 1,on afc] = c,'et peu importe que le second membre de 
(1.190) ne soit pas un nombre entier pour & quelconque. 


6—0682 
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Démontrer que le critère optimal pour rejeter l'hypothèse H, est 


ñ 
1 : 2 21n 
— Di <i+In LT. (3) 
| 


où c est une constante caractérisant le critère de qualité. Montrer que pour 
n + oo On a les formules asymptotiques suivantes pour les probabilités condi- 
tionnelles d'erreurs de première et de seconde espèce: 


n JT 

In CH ln —- 

a1—F VAR , (4) 
n 


. : + CV tm) 
MEET) 


1.2. Soient des suites de Ÿ expériences indépendantes (cf. $ 1.2, tome 1). 
Soit r; le nombre d'apparitions des événements dans la i-ième suite (i — 1, ... 
..., n). On émet l'hypothèse simple A, que la probabilité a priori d'apparition 
d’un événement, dans chaque expérience, est égale à ps, contre l’alternative 
simple /7, que cette probabilité est égale à p1 (p1 > po). Démontrer que le crite- 
re optimal pour rejeter l'hypothèse H, est 


1 
on mr) «| 
Nr D, 5 
n ( dé In P1 (1 — Po) 6) 


Po (4 — pi) 
où c est une constante caractérisant le critère de qualité. Montrer que les proba- 
bilités d'erreurs de première et de seconde espèce pour (5) sont respectivement 
égales à 


(4°) 


B; (Nn—[nK], [rK]-+1) 


ne LS a Le S 
A B(Nn—{[nk], (nK]+1) (6) 
Bin (Wn—{rK], [rK]+1) _ 


si B(Nn—{nK], [rA]+1) ” 


où Ba (x, y) et B (x, y) sont respectivement des fonctions bêta complète et 


incomplète. 
1.3. Soit H, l'hypothèse simple selon laquelle l'échantillon x, ..., x, 


appartient à la distribution de Rayleigh 


+2 


m(r=e (7) 


de paramètre & = 6, et H,, l’alternative simple selon laquelle cet échantillon 
appartient à la même distribution de paramètre © = 6, => 00. Démontrer que 
le critère optimal pour rejcter l'hypothèse /7, est 


n 1 
1 : 2630? Of. n\_ 
TD? 0?— 0% In | }=K, de 
° 1=1 
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où c est une constante caractérisant le critère de qualité. Montrer que les proba- 
bilités d'erreurs de première et de seconde espèce pour (8) sont respectivement 


pen à (9) 
nK 

— 1 r ( A ) 9’ 

B=— Th) —* (9”) 


où l'(n, x) est une fonction gamma incomplète. Expliquer la coïncidence 


des formules (9) et (9°) avec (1.98) et (1.98’) pour 0° = 57 

1.4. Montrer que les variances du logarithme du rapport de vraisemblance 
unidimensionnel pour deux distributions normales de moyennes a, et a, et de 
même variance o* sont [cf. (1.47) et (1.48)] 


Mo= Ma = (10) 


1.5. Soit H, l'hypothèse simple selon laquelle z appartient à une distri- 
bution normale 


he TE Er (11) 


et H, l'alternative simple selon laquelle cette grandeur appartient à une distri- 
bution bimodale 
1 


2Vx 
Démontrer que le critère optimal pour rejeter l’hypothèse H, est 


n (x—2a)3 (x+2a)3 


Cr mt 2 te 2? J>e. (13) 


wi (z| H1)= pe-(-a)3 ,-(+a)3], (12) 


Ne pas oublier que l'intervalle de l’axce réel x déterminé par l'inégalité (13) 
est biconnexe. 

1.6. Soit x une valeur échantillonnée (vecteur) d’une distribution normale 
multidimensionnelle de matrice de corrélation o°I (où I est une matrice unité). 
On émet l'hypothèse I, que la moyenne vectorielle est égale à a, contre l’alter- 
native //, qu'elle est égale à a,. Montrer que l’espace des échantillons est divisé 
d'une manière optimale, d’après le critère du maximum de vraisemblance, 
par un hyperplan perpendiculaire à la ligne joignant les points x — apset x = a; 
et divisant cette ligne en deux. 

1.7. Soit x une valeur échantillonnée (vecteur) d’une distribution normale 
multidimensionnelle. On émet l'hypothèse H, que cette valeur appartient 
à une distribution normale de moyenne vectorielle a et de matrice de corrélation 
M, contre l'alternative H, que cette valeur appartient à une distribution normale 
de même moyenne et de matrice de corrélation M,. Montrer que le critère optimal 
pour adopter la décision y; (la matrice de corrélation est égale à M) est 

, det M 
(x— a)" (M°—M;") (x — a) >Plnc+ln pe (14) 


pour le vecteur x observé. On adopte la décision Yo (la matrice de corrélation 
est égale à Mo) si c'est l'inégalité contraire de (14) qui est vérifiée. 


6* 
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Montrer qu'avec le changement de variable 


y = f(x — a), (15) 
où la matrice f est donnée par 
Mif — MofA (16) 
et A est une matrice diagonale dont les éléments À, . .., À sont les racines 
de l'équation 
det [M1 — ÀAMol = 0, (17) 


on aura pour l'inégalité (14) l'expression suivante: 


N 

1 2 
>, (1 = Tr) Yi 

i= 1 is 1 
1.8. Supposons que l'on vérifie l'hypothèse simple Æ que la variance 
d'une variable aléatoire normale de moyenne nulle est égale à 0%, contre l’alter- 
native composite que cette variance est 0? -- 05. Démontrer que si le critère 

pour rejeter l'hypothèse AH est 


ñn 
D x >0H, (19) 
k==1 


où +2 est le quantile de la loi du x? à n degrés de liberté; si 0? > o2 il est 
uniformément le plus puissant vis-à-vis de l'alternative composite. 

1.9. ShPposone que l’on vérifie l'hypothèse simple H selon laquelle le 
paramètre À d’une loi exponentielle est égal à À, contre l'alternative composite 
que À  Ào. Démontrer que si le critère pour rejeter l'hypothèse H est 


(18) 


t9 
— 
Le] 
+ 
MA = 
et 
Fan | 
> 


n 
1 
DÉSSS e (20) 
k=1 
où yi—c est le quantile de la loi du 4? à 2n degrés de liberté, il est uniformément 
le plus puissant vis-à-vis de l'alternative composite, si À > à. 
1.10. Démontrer que la fonctionnelle 


Olp(z)]= | w(z)ln p (zx) dr (21) 


œ 
avec o (x) > 0 et { p (x) dz = 1, admet un maximum pour 


p (x) = w (x), (22) 
c'est-à-dire démontrer que 


Î w(z)inw(z)dr > | w(z)Inq(z)dr. (23) 


Chapitre 2 


STATISTIQUE DES VARIABLES ALÉATOIRES 


2.1. L'ÉCHANTILLON ET SES CA RACTÉRISTIQUES 


2.1.1. Fonction de répartition empirique. Revenons au $ 1.1.4 
et considérons de nouveau une certaine expérience aléatoire et une 
variable aléatoire, liée à cette expérience en ce sens que les valeurs 
possibles de cette variable aléatoire sont les résultats des observa- 
tions. La suite de x observations est caractérisée par un échantillon 
de taille r, dont les éléments sont les valeurs possibles de la varia- 
ble aléatoire E. 

Considérons les échantillons obtenus à la suite d'observations 
indépendantes. On appelle échantillonnage aléatoire simple le pro- 
cessus de prélèvement de ces échantillons. 

Si l’on connaît la fonction de répartition F;, (x) ou la densité de 
probabilité w, (x) de la variable aléatoire £, on dit que l'échantillon 
Ti, . . 2 appartient à la loi F, (x) ou w, (x). En arrangeant les 
éléments de l'échantillon de sorte que leurs valeurs aillent en crois- 
sant zx; > x; pour i > j, on obtient un échantillon ordonné. Les élé- 
ments de l'échantillon ordonné sont parfois appelés statistiques 
d'ordre. À titre d'exemple de statistiques d'ordre on peut citer la 
valeur la plus petite x;, la valeur la plus grande x,, la médiane de 
l'échantillon Tn (si r est pair). 


Soit v (x) le nombre d'éléments de l'échantillon dont la valeur 
ne dépasse pas un certain seuil z. La fonction en escalier 


* V(z) 1 

Fi UE Des: D ns (2.1) 
où u (x) est un échelon unité [voir (1.173)], donne la fréquence de 
l'événement E < x dans la suite de r observations. On appelle cette 
fréquence fonction de répartition empirique de l'échantillon. Cette 
fonction est l'équivalent statistique de la fonction de répartition 
d'une variable aléatoire mais ne coïncide pas avec cette dernière 
(fig. 2.1). La fonction de répartition empirique F? (x) pour r —0o 
converge en probabilité vers la fonction de répartition hypothétique 
F; (x) si l'échantillon ayant servi à construire la fonction empiri- 
que a été obtenu à partir de la distribution F, (x) (théorème de Gli- 
venko, cf. [3]), c'est-à-dire pour r —+ © on a en probabilité 


sup | F, (x) — F? (x) | — 0. (2.2) 
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Lorsque l’échantillon provient d’une distribution continue et que 
le nombre d'éléments est très grand on peut procéder à un groupe- 
ment. Dans ce cas le domaine des valeurs possibles de la variable 


FA) 


0 T 
Fig. 2.1. Fonction de répartition empirique 


aléatoire est divisé en intervalles disjoints, puis on rassemble les 


éléments tombés dans un même intervalle. Dans chacun de ces in- 


e e Vv LS 
tervalles pris pour base on construit un rectangle de hauteur — où 
t 


Wy(Z) 


Fig. 2.2. Histogramme 


h; est la longueur de l'intervalle; v; le nombre d'éléments tombés 
dans l’i-ième intervalle ; » la taille de l'échantillon. La fonction en 
escalier ainsi obtenue 


N 
, 1 
wt(n=+ D, (2.3) 
41 
Vi) TI LT EL Litts ; 
L «= { 0, za, z>zin, ee) 


hi= Titi (2.3") 


est appelée histogramme de l'échantillon. Elle peut servir d’analogue 
statistique de la densité de probabilité d’une variable aléatoire 
(fig. 2.2.) 
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2.1.2. Moments d'échantillon. La fonction de répartition 
empirique contient toute l'information statistique que peut fournir 
un échantillon. La théorie des probabilités nous apprend qu'une 
variable aléatoire peut être caractérisée non seulement par une fonc- 
tion de répartition, mais également par des nombres appelés mo- 
ments de la répartition. D'une manière analogue, les propriétés 
statistiques d’un échantillon peuvent être caractérisées non seulement 
par une fonction de répartition empirique, mais également plus 
grossièrement, par plusieurs nombres appelés moments d'échantillon. 
Le moment d’échantillon d'ordre Æ est danné nar la formule 


(2.4) 


i=1 


c'est-à-dire qu'il est égal à la moyenne arithmétique des puissances 
k-ièmes des valeurs échantillonnées. On note d'un astérisque les 
moments d’échantillon pour ne pas les confondre avec les moments 
d'une variable aléatoire. 

Il faut toujours distinguer les moments d’échantillon des moments 
d'une variable aléatoire. Ces derniers sont calculés à partir de la 


densité de probabilité a priori w, (x) d’après la formule bien connue 
{cf. (2.77), tome I] 


mx — | zu (x) dr. (2.5) 


Pour une variable aléatoire discrète prenant la valeur x; avec la 
probabilité p:, on a 


mas À zip. (2.5') 


Ainsi, les moments d’une variable aléatoire sont calculés d'après 
les caractéristiques connues a priori, alors que les moments d’échan- 
tillon se calculent d’après les valeurs observées. 

Etudions les moments d’échantillon des quatre premiers ordres. 
Par définition, le moment d’échantillon du premier ordre, ou plus 
simplement la moyenne échantillonnée, est égal à la moyenne arithmé- 
tique des valeurs échantillonnées, c'est-à-dire 


mt = + > Lie (2.6) 
i=1 


La moyenne échantillonnée donne la position de l'échantillon 
sur l'axe réel, indique l'intervalle où sont groupées les valeurs 
échantillonnées. La différence x; — mi est appelée écart de la valeur 
échantillonnée de la moyenne échantillonnée. Les moments d’échan- 
tillon de l'écart sont appelés moments centrés et sont désignés par 
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les symboles M$, k = 2, 3, ... En vertu de (2.4) on a 


n 
. 
M? =— ÿ (zi— mi). (2.7) 
i=1 
La variance échantillonnée M5 (moment d’échantillon centré du 


second ordre) est la mesure de la dispersion des valeurs échantillon- 
nées par rapport à la moyenne échantillonnée : 


M= LES (x mt}. (2.8) 
11 


De même, le coefficient d’asymétrie d’échantillon k* et le coef- 
ficient d’aplatissement d'’échantillon y* sont liés aux moments 
centrés d’échantillon du troisième et du quatrième ordre: 


+ — M5 __Mi 
a (Ms)"2 (M3): ° (2.9) 


2.1.3. Fonction de vraisemblance. Chaque échantillon de taille 
n, c’est-à-dire chaque ensemble de nombres, représente un point 
dans l’espace à n dimensions. Parmi tous les résultats imaginables 
des expériences, à l’ensemble de tous les échantillons possibles de 
taille x correspond un certain domaine de l’espace des échantillons 
àa n dimensions. Nous n'’allons pas considérer séparément chaque 
échantillon, mais l’ensemble de tous les échantillons de taille 7 
appartenant à la distribution a priori w, (x). La densité de probabi- 
lité d’un échantillon à éléments indépendants est égale à [cf. (1.6)] 


Wa (Zis ce Tn)= [E w(Th). (2.10) 


La probabilité d'apparition de l'échantillon x;, . .., x, apparte- 


nant à une distribution discrete est 
ñn 


Pas +. n)= [] (x), (2.10) 
où p (x:) est la probabilité d’avoir E = zx. 
La densité de probabilité conjointe W, (xz:, . .., x.) des valeurs 


échantillonnées, comme nous l’avons mentionné dans le premier 
chapitre, est appelée fonction de vraisemblance de l'échantillon. Con- 
naissant w, (x), on peut, à l’aide de la formule (2.10), trouver la 
fonction de vraisemblance et d’après les règles bien connues de la 
théorie des probabilités (cf. tome I, chapitre 3) trouver la loi d’une 
fonction quelconque g(x;,, ..., x,) des valeurs échantillonnées. 

Les fonctions des valeurs échantillonnées sont souvent appelées 
statistiques. Les moments d’échantillon sont des exemples des sta- 
tistiques. Les valeurs échantillonnées et leurs fonctions, en parti- 


2.1] L'ÉCHANTILLON ET SES CARACTÉRISTIQUES 89 


culier, les moments d’échantillon, sont des variables aléatoires alors 
que les caractéristiques numériques (moments) de la distribution 
initiale w, (x) sont des nombres constants, bien que certains d’entre 
eux ou même tous puissent être inconnus *). 

Lorsque les données statistiques (échantillons) sont accumulées, 
on peut utiliser pour la description qualitative des phénomènes 
étudiés les valeurs échantillonnées ou leurs caractéristiques sous la 
forme de distributions empiriques, d’histogrammes, de moments 
d’'échantillon, etc. Néanmoins les problèmes de mathématiques 
statistiques ne sont pas purement descriptifs. L'essentiel est d’obte- 
nir des données statistiques sur une distribution inconnue ou insuf- 
fisamment connue d’une variable aléatoire, en se basant sur des 
valeurs échantillonnées. 

2.1.4. Loi des grands nombres. Considérons les échantillons 
Lis + « Zn de la distribution w, (x) de la variable aléatoire E, de 
variance finie 6° (et, par conséquent, de moyenne finie a). Soit la 
moyenne échantillonnée 


et calculons sa valeur moyenne sur l’espace des échantillons 


nr n 

mfmi}=+ Smr=+ aa, (2.11) 
ES | 1—=1 

car mi {z;} = a. 

Ainsi, la valeur moyenne de la moyenne échantillonnée, quelle 
que soit la taille de l’échantillon, coïncide exactement avec la moyen- 
ne a de la variable aléatoire E. Ceci ne veut pas dire évidemment 
qu'une moyenne échantillonnée quelconque coïncidera avec la gran- 
deur a. La moyenne échantillonnée est une variable aléatoire, mais 
sa valeur moyenne coïncide exactement avec la moyenne de la distri- 
bution initiale. 

Calculons maintenant la variance de la moyenne échantillonnée 


1 + 1 Qt e_ 0. | 
Mi{m}== D Mz}== D =: (2.11°) 
i— 1 


11 


Ici on a utilisé le fait que la variance d’une somme est égale à la 
somme des variances si les composantes sont indépendantes et si 


M; {z:} = 0°. 


*) Il vient de (2.4) que, compte tenu des restrictions imposées par le théorè- 
me central limite (cf. $ 3.4, tome I) aux moments de la distribution initiale, 


les moments d'échantillon mf pour un échantillon de taille importante, sont 
asymplotiquement normaux. 
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Ainsi, la variance de la moyenne échantillonnée est égale à la 
variance de la variable aléatoire E, divisée par la taille de l’échan- 
tillon. Au fur et à mesure que la taille de l'échantillon augmente, 
la variance de la moyenne échantillonnée diminue et à la limite 
pour z — oc tend vers zéro. 

Considérons la probabilité pour la moyenne échantillonnée 
de s’écarter de la valeur moyenne de la distribution initiale 
d'une grandeur supérieure à une>> O0 quelconque. Etudions com- 
ment varie cette probabilité lorsque la taille de l'échantillon croît 
indéfiniment. En vertu de l'inégalité de Tchébychev {cf. (2.92), 
tome I] cette probabilité ne doit pas être supérieure à la variance 
de la moyenne échantillonnée divisée par e*, c'est-à-dire 


02 


Il découle immédiatement de (2.12) que la limite de la probabi- 
lité envisagée, lorsque la taille de l'échantillon tend vers l'infini, 
est nulle : 

lim P{Im—-al>e} = 0. (2.13) 


La limite de l'inégalité inverse est égale à l'unité 
lim P{Im —a|<e} = 1. (2.13) 


n—+00 


Les formules (2.13) et (2.13”) sont l'expression analytique de la 
loi des grands nombres : au fur et à mesure que la taille de l’échantil- 
lon augmente, la probabibité pour que la moyenne échantillonnée 
diffère aussi peu que l’on veut de la valeur moyenne de la variable 
aléatoire & tend vers l'unité. 

Par conséquent, la loi des grands nombres peut se formuler com- 
me suit : la moyenne échantillonnée converge en probabilité vers la 
moyenne de la distribution initiale (cf. $ 3.5, tome I). 

De même on peut montrer que tout moment d’échantillon d'or- 
dre À converge en probabilité, lorsque la taille de l'échantillon croît 
indéfiniment, vers le moment À correspondant de la distribution 
initiale à condition toutefois qu'il existe un moment d'ordre 2 # de 
cette dernière. 

En vertu de la loi des grands nombres les caractéristiques échan- 
tillonnées peuvent servir d'estimateurs des caractéristiques corres- 
pondantes de la distribution initiale. Evidemment, on n'obtient 
une bonne coïncidence des caractéristiques échantillonnées avec les 
paramètres de la distribution initiale que lorsque les échantillons 
sont de taille suffisamment grande, ce qui n’est pas toujours facile 
à réaliser. Au contraire, pour économiser le temps et les moyens on 
préfère parfois se limiter à des échantillons de taille aussi réduite 
que possible, mais il est alors difficile d'assurer une bonne précision. 
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Il est intéressant d'étudier les propriétés de ces estimateurs pour un 
échantillon de taille finie. 

La loi des grands nombres peut s’écrire sous une forme plus géné- 
rale que (2.13), notamment : 


lim P { E S f(zi)—m { (æ)}| >e} =?) (2.13) 
i=1 


où f (x) est une fonction donnée et m2 {f (x;)} < oo. Si le théorème 


central limite est vérifié, la distribution LY f (xi) est asymptoti- 
i=1 
quement normale. 
Remarquons en passant qu’on peut utiliser la relation (2.13”) 
pour donner une estimation statistique de l'intégrale 


Î fta)o (x) de = mi {f(2)}& + D fan), 


R=1 


si seulement on dispose d’un échantillon de taille suffisamment 
importante pris dans la distribution w (x). Cette méthode de calcul 
des intégrales est appelée méthode de Monte-Carlo. 


2.2. ESTIMATION DES PARAMÈTRES D'UNE 
DISTRIBUTION UNIDIMENSIONNELLE 


2.2.1. Estimations ponctuelles. De nombreux problèmes d'intérêt 
pratique reviennent au calcul des données statistiques relatives à 
une distribution unidimensionnelle dont on connaît la loi mais dont 
on ignore certains paramètres. On peut procéder par détermination 
des estimations ponctuelles des paramètres, c'est-à-dire qu'on doit 
calculer les fonctions des valeurs échantillonnées (statistiques) 


Ê() — gt) (Zi, CEE 2 | Zn) (2.14) 
qui sont les meilleures (en un certain sens) estimations des paramè- 
tres inconnus D, à — 1Â,..., m de la distribution initiale 


D: (z; Ÿ:, + €$ Ù m)- 

Nous allons nous limiter tout d’abord au cas où la distribution 
en question ne-contient qu’un seul paramètre Ÿ. Efforçons-nous de 
donner une classification générale des estimations ponctuelles du 
paramètre de la distribution unidimensionnelle d’après certaines 
propriétés de ces estimations. Les plus importantes de ces proprié- 
tés sont : la consistance, la suffisance, l’absence de biais et l’efficaci- 
té. Considérons séparément chacune de ces propriétés. Notons préa- 
lablement que le paramètre estimé Ÿ peut lui-même être une va- 
riable aléatoire et se caractériser par une distribution a priori w, (Ô). 
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Cependant, souvent on ne connaît pas cette distribution a priori ou 
bien on sait d'avance que le paramètre estimé n'est pas aléatoire. 
En conséquence on a deux cas: 

1) une estimation conditionnelle du paramètre Ÿ 


D, = gti, -e. Ta), (2.15) 


déterminée à partir des valeurs échantillonnées z;, . . ., x, suppo- 
sant que celles-ci appartiennent à une distribution w, (x |) de va- 
leur donnée du paramètre Ÿ *); 

2) une estimation non conditionnelle du paramètre Ÿ 


ô, = | un (9) Es, Zn) dO, (2.15°) 


obtenue à partir de la moyenne de l'estimation conditionnelle sur 
toutes les valeurs possibles de Ÿ. 

Notons que l’estimation conditionnelle aussi bien que l’estima- 
tion non conditionnelle, en tant que fonctions des valeurs échantillon- 
nées Zi, + « -: Zn, Sont des variables aléatoires dont les distribu- 
tions sont données par les fonctions de vraisemblance conditionnelle 


| W,, (x, ..., 2 | Ÿ) 
et inconditionnelle 


Wan (zu ce, 2n)= | (9) Wa(tis se. nl 9) 40 (2.16) 


de l’échantillon. 
2.2.2. Consistance. L’estimation conditionnelle Ÿ, du paramètre 
Ÿ est dite consistante si elle converge en probabilité vers le para- 
mètre estimé lorsque la taille z de l'échantillon augmente indéfini- 
ment, c’est-à-dire pour un & > 0 arbitraire on a 
lim P{1]8, —801>e} = 0. (2.17) 
71 +00 
D'une manière analogue, l'estimation inconditionnelle 8, du para- 
mètre Ÿ est dite consistante, si elle converge en probabilité vers la 
valeur moyenne m, {8} du paramètre estimé lorsque la taille de 
l'échantillon augmente indéfiniment, c’est-à-dire si pour un € > 0 
arbitraire on a 
lim P{1]6, — m {8} | Ze} = 0. (2.17°) 
N—r+00 
La loi des grands nombres établit la consistance d’une estimation 
conditionnelle d’un type particulier, il s’agit de la moyenne échan- 


*) On utilise la désignation w (x | Ô) et des désignations analogues chaque 
fois où Ÿ est un paramètre aléatoire et que l’on étudic la densité conditionnelle 
de x pour un Ÿ donné. Cependant nous utiliserons souvent la désignation w (zx | Ô) 
tout comime & (x, Ÿ) dans le cas où Ô est un paramètre inconnu (non aléatoire). 
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tillonnée convergeant en probabilité vers la moyenne de la distri- 
bution initiale. Comme nous l'avons déjà mentionné, on peut géné- 
raliser la loi des grands nombres: tout moment d'échantillon con- 
verge pour certaines conditions vers le moment correspondant de la 
distribution initiale. On peut donc affirmer que, pour les conditions 
mentionnées, tout moment d'’échantillon est une estimation consis- 
tante du moment correspondant de la distribution initiale. 


2.2.3. Absence de biais. L’estimation conditionnelle à — g (x1, ... 
«++ Zn) du paramètre Ÿ est dite non biaisée (absolument correcte), 
si la valeur moyenne de cette estimation sur l’ensemble des échan- 
tillons de taille 7 donnée est exactement égale au paramètre estimé, 
c'est-à-dire si pour un 7 quelconque on a 


mi {On} = 
_ Î .. Jet Les Zn) Waltis oc. 2nl 0)dti... dtn = 0. (2.18) 


D'une manière analogue l'estimation inconditionnelle 6, du para- 
mètre aléatoire Ÿ est dite non biaisée si pour un 7 quelconque on a *) 


m{êr)= | . | BW (ris ce, Tn) dr. drn=m{0}. (2.19) 


La différence : 

mi {04} — 8 = b, (0) (2.20) 
est appelée biais de l'estimation conditionnelle (ou erreur systéma- 
tique). Pour l'estimation inconditionnelle le biais est donné par 

my {On} — mi {8} = B, (8). (2.21) 


Notons qu’on peut facilement éliminer le biais b, (Ô) lorsque ce 
dernier est une fonction linéaire 


b, (9) = aÙ + b, (2.22) 
où a et b sont des nombres réels quelconques (l’un d’eux pouvant 
être nul). Lorsque ce biais existe réellement, en remplaçant l’estima- 

| F D n —b us ue 
tion Ÿ, par °2 7 on obtient une estimation non biaisée. 


A titre d'exemple d'estimation non biaisée de la moyenne a, 
pour une distribution arbitraire on peut citer la moyenne échantil- 


*) Ici et dans la suite les symboles m, au début et à la fin de la formule 
(2.19) concernent les moyennes prises sur les différents cnsembles: pour l’esti- 


mation Ô, la moyenne est prise sur l’espace des échantillons de taille donnée, 
et celle du paramètre Ÿ, sur ses valeurs possibles. 
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ms {an} = + S'm{ri)= a. (2.23) 
= 1 


Ainsi, la moyenne échantillonnée est une estimation consistante 
et non biaisée de la moyenne de la distribution initiale. Cependant, 
une estimation consistante n’est pas obligatoirement non biaisée. 


Ainsi, dans certaines conditions la variance échantillonnée 0 — M 
est une estimation consistante de la variance o* de la distribution 
initiale. Cependant 


ma {63} + D mi (ri — mt)} = 
i=1 


À D 1m (Gi — 09°) + (mt — a) — 2m (ei — a) (mt — a)}] = 
i—=1 


n 
1 o (e 4 0° o | 
perse que l'estimation 0° est biaisée. La valeur du biais est 
égale à — — . Lorsque l'échantillon n'est pas grand, le biais peut 


être portant. Par exemple, pour n = 3 il atteint 33 %. Comme 
dans le cas envisage le biais est une fonction linéaire, en vertu de 


(2.20), pour a — _ , b = 0, on a pour l'estimation non biaisée 
de la variance 


1 


(2.25) 


1 
ot = 


La Le te 5 l’estimation ne s’en trouve pas altérée car 
lim (1 — 2) = 
n—»00 

Remarquons que le biais de l'estimation 2 est le coût de l’ab- 
sence de l’information sur la moyenne a de la distribution initiale. 
Si a est connue on a 


ms {0} = + Dm {(ri—0)°} = 0° 


i=1 


et l'estimation mentionnée est absolument correcte. 


ts 
tn 
= 
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Parfois on envisage les estimations pour lesquelles les égalités 
(2.18) et (2.19) ne sont vérifiées que lorsque la taille » de l’échantil- 
lon augmente indéfiniment. Les estimations (conditionnelles et in- 
conditionnelles) pour lesquelles 


lim m {ôn} = 8 (2.26) 
ou 
lim m, {6,} = m, {9} (2.27) 


sont dites asymptotiquement correctes. L'estimation (2.24) est un 
exemple d'estimation asymptotiquement correcte car le biais 


b, (0°) = — tend vers zéro pour 7 —+ co. Il est évident qu'une 
n 


estimation absolument correcte est toujours asymptotiquement cor- 
recte, l’inverse n'étant pas vraie. 

2.2.4. Suffisance. Jusqu'à présent on supposait que pour obtenir 
une estimation il fallait prélever un échantillon de taille donnée ». 
Cependant, dans certains cas pour l'estimation du para mètre Ÿ, il 
n’est pas indispensable de connaître chacun des éléments zx; de 
l'échantillon, mais il suffit d’avoir une ou plusieurs fonctions 
g® (x, ..., æn), 1L=1,..., k(k nn) des valeurs échantillon- 
nées. Ces fonctions sont appelées estimations suffisantes (ou statisti- 
ques suffisantes) du paramètre Ÿ. En se limitant aux statistiques 
suffisantes on peut parfois accélérer notablement le processus d’accu- 
mulation des données nécessaires pour estimer un paramètre inconnu. 

La condition nécessaire et suffisante pour que g (x;, ..., zh) 
soit une statistique suffisante est qu'il soit possible de factoriser la 
fonction de vraisemblance de l'échantillon, c’est-à-dire de présen- 
ter la fonction W, (x, ..., x, | Ÿ) comme le produit de deux fac- 
teurs non négatifs : 


Wh (Zi 2. e7 La | Ô) = / [g (Zi, CR 2); Ô] hk (Zi, Pre" Zn) (2.28) 


dont le premier dépend de ÿ et de g (x, . . ., x,) et le second ne dé- 
pend que des valeurs échantillonnées x, . . ., x, et est indépendant 
du paramètre estimé Ÿ. 

Si £g (ti, - . ., 3) est une estimation suffisante du paramètre 
aléatoire Ÿ, la distribution a posteriori W, (| zx;, . .., x.) dépend 
non pas des valeurs échantillonnées, mais seulement de la fonction 
£ (ti, .-., 2). En effet la formule de Bayes (cf. (2.41), tome I} 
donne ° 


Wa, si) = MORE Or 
\ w (9) Wn (z1, 7 Zn | Ÿ) dd 


—œo 
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En y portant l'expression de la fonction de vraisemblance donnée 
par (2.28) on obtient *) 


Wi(9 1x, tee ON PIE En 
\ wi (0) [eg (z1, --., Zn), 0] dû 


? 


c'est-à-dire 
Wa (O [ms ..., an) = WI | g (ms, . .., ml. (2.29) 


Soient gi (ti, . . ., Zn) et So (x1, . . ., x.) deux estimations du 
paramètre Ÿ calculées d’après un échantillon de taille donnée n. 
L'estimation £g1 (z1, . . ., x) est dite subordonnée à l'estimation 
Lo (Zi, - - ., Th) si en vertu de 


La (Zi ... Tn) = £a (Ti . Xn) 
on a 


£1 (z:, 9 Zn) 7 81 (x 1 NE 


Toute estimation subordonnant une statistique suffisante est 
elle-même une estimation suffisante. 

Si Ÿ, est une valeur donnée du paramètre Ÿ, on peut montrer 
(cf. par exemple, [13]) que le rapport de vraisemblance 


— Wa (r4, ...s Zn | Ô) 
EG em 0)E 7 Ge an | 00) 
est une statistique suffisante, permettant de trouver, en utilisant la 
remarque mentionnée plus haut, une estimation suffisante du para- 
mètre Ÿ. 
Comme l'a montré E. Dynkine, pour des densités de probabilités 
unidimensionnelles de la forme 


L d 
2= 


wi(z; Ÿ)—exp { 2 qi (z) ca (V) + co(Ÿ) + Po (x)} ? 


les statistiques du paramètre Ÿ existent. La grandeur r est appelée 
rang de la distribution. Les fonctions (1, m1, . . ., p,) et (1, ci, . .. 
.., Cr) Sont linéairement indépendantes. 


2.2.5. Efficacité. L'’estimation conditionnelle Ÿ, du paramètre 
Ÿ est appelée efficace, si (pour un biais donné) la valeur moyenne (sur 
l’ensemble des différents échantillons de taille donnée n) du carré de 
l'écart de l'estimation par rapport au paramètre estimé n'est pas 
supérieure à l’écart quadratique moyen pour toute autre estimation, 
c'est-à-dire si 


Mi {(Onerr — D) } LM {On — 8)°}. (2.30) 
*) On peut montrer que la quantité d'information J (x4, - .., Zn, Ÿ) 
contenue dans l'échantillon x:, . .., zx, sur le paramètre inconnu Ô est égale 


à la quantité d’information J [g (x54, .- .., z,), ©] contenue dans l'estimation 
suffisante g (x1, . .., z,) de ce paramètre (cf. [8], pages 42 à 44). 
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Autrement dit, l'estimation efficace (si elle existe) minimise 
pour »# donné la grandeur m, {(8, — 8)°} sur toutes les estimations 
conditionnelles Ÿ, (pour un biais donné). 

Si Ÿ, est une estimation absolument correcte, on peut dans (2.30) 
substituer m; {0,} à ® et écrire cette inégalité comme suit: 


M3 (Ünerr} < Ma {On}. (2.31) 


Par conséquent, l'estimation efficace non biaisée peut être obtenue 
à partir de la condition du minimum de la variance de l'estimation. 


On appelle efficacité relative de l'estimation conditionnelle b. 
du paramètre Ÿ le rapport de l'écart _quadratique moyen de |’ estima- 
tion efficace du paramètre estimé à l'écart quadratique moyen de 
l'estimation envisagée (pour des estimations biaisées) 


9 m1 On err—0X+ 9 39 
mA ) mi {(On —0)2} +) 


et le rapport de la variance de l'estimation efficace à la variance de 
l'estimation envisagée (pour des estimations non biaisées) 


M: {On eff} 
En (ÙŸ) = = <—— . 2.33 
1 (0) = EEE (2.33) 
11 est évident que 0 < e, < 1. La grandeur de l'efficacité relative 
est égale à l'unité pour une estimation -efficace. 


On parle parfois d'efficacité relative d'une estimation ü” du 


paramètre Ÿ comparativement à une autre estimation Ô® de ce même 
paramètre, en entendant par cela le rapport des écarts quadratiques 
moyens de ces estimations par rapport au paramètre estimé. Défi- 
nie de cette façon, l'efficacité relative peut être une grandeur non 
négative quelconque. 

I1 y a lieu de distinguer l'estimation efficace de l'estimation 
asymptotiquement efficace. Une estimation est dite asymptotiquement 
efficace, si la valeur limite de son efficacité relative est différente de 
zéro, lorsque la taille de l'échantillon augmente indéfiniment. Si 
l'écart quadratique moyen de l’estimation tend vers zéro pour 
n + oo (ce qui rend l’estimation consistante), l'efficacité signifie 
que pour un » suffisamment grand les écarts quadratiques moyens 
par rapport au paramètre estimé de l'estimation considérée et de 
l'estimation efficace sont des infiniment petits du même ordre de 
grandeur. 

Notons que l'efficacité d’une estimation biaisée est donnée non 
pas par sa variance, mais par son écart quadratique moyen par rap- 
port au paramètre estimé. On peut facilement donner un exemple 


simple d'estimation biaisée de variance nulle. Soit Ÿ, — co = const 
indépendamment des résultats des mesures. On a alors M,{8,}=— 0. 
7—0882 
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Mais si l'on n’a pas deviné ou bien si l’on ne connaît pas 
d’avance la grandeur du paramètre estimé, le biais b, (9) — co — Ÿ 
sera grand. En général, il est impossible d'annuler la variance et le 
biais en même temps. C’est pourquoi dans la suite nous n’allons 
pas envisager les cas où la variance est nulle (c’est-à-dire quand 
bn (Ÿ) — — 1). 

J1 existe une inégalité qui porte le nom de Rao-Cramer, permet- 
tant de trouver la limite inférieure des écarts quadratiques moyens 
des estimations et d’estimer par là même l'efficacité de chacune des 
estimations. 

Supposons que les limites du domaine de l’axe réel x, où la den- 
sité de probabilité w, (x; Ÿ) n’est pas nulle, ne dépendent pas de Ô. 
Ceci est vrai, par exemple, si w, {x; 0} = 0 sur tout l'axe réel ou 
pour æ > 0. A titre d'exemple de distribution ne satisfaisant pas 
à cette condition on peut citer la distribution uniforme 


wi(z; 0)=+, 0<r<b. 


Supposons de plus que la fonction w, (x; 8) soit dérivable par rap- 


port au paramètre 8. Soit Ÿ, = g (x, - - ., T,) une estimation con- 
ditionnelle du paramètre Ÿ obtenue d’après un échantillon de tail- 
le n. La valeur moyenne de cette estimation est 


ma {ôn} — Â . | gaie tn)Wn(ti see, tn 0) dr... dtn. (2.34) 


00 00 


En utilisant (2.20), on peut écrire (2.34) sous la forme suivante : 


[es O0 


8 + ba (8) — | . | gti con) Want, se. 2n| 0) dr... dr. 


CU NE (2.35) 


Supposons que l'intégrale dans le second membre de (2.35) soit 
dérivable par rapport au paramètre Ÿ. En dérivant les deux membres 
de (2.35) par rapport à Ÿ et en supposant que les limites d'intégration 
soient indépendantes de Ÿ, on obtient 


(es) ©œ 


, (4) 
1 + b5, (0) — | 7. j Gares 2n) Se Wntir eee, En | 8) X 


—œ 


X dr,...d = |. eŸ eu ex 


X Wnzi ... ,zn|8) nW, (21, -..,2Zn | 0) dr, ... dtn = 
= m, (6, In Wa}. (2.36) 


22] PARAMÊTRES D'UNE DISTRIBUTION UNIDIMENSIONNELLE 99 


De plus, en dérivant par rapport’ à Ÿ l'égalité évidente 


| .. | Wars ...;2n|0) dr... dtn = 1, 
on tire TT _ 


C fo 
| 5 Wa, -.., Zn |Ÿ) dr: st, — 


-œo 
O0 © 


0 
2 | : | Wars. 2nl0) in Wars 


40 - 


..,2nl0)dm... den ms {55 nw;} —0. (2.37) 


En multipliant l'expression (2.37) par m, {ô,} et en la retranchant 
de (2.36) on obtient 


a = Ô z 
m {té —m{6,}] + In Wa} — 1; (8). (2.38) 
Le premier membre de (2.38) est la covariance de deux variables 
aléatoires de moyenne nulle. Le carré de cette covariance ne peut 


être supérieur au produit des variances des facteurs (cf. $ 2.3.5, 
tome Î), c'est-à-dire 
0 


A+ (DEL Me) M, { + In Wa} | (2.39) 


La grandeur non négative M: {5 In W, } _- mi {| > In wa |} 


est appelée information contenue dans l'échantillon (d’après R. Fisher). 
Désignons par Z, (8) cette grandeur qui ne dépend que de la taille 
de l’échantillon et de la densité de probabilité w, (x; Ÿ) et supposons 
qu’elle ne soit pas nulle *). On obtient alors à partir de (2.39) la 
limite inférieure cherchée de la variance des estimations **) 


[1 +; (0) 
In (Ÿ) 
Remarquons que le second membre de l'inégalité (2.40) est éga- 


lement la limite inférieure des écarts quadratiques moyens des esti- 
mations par rapport au paramètre estimé. Comme le minimum de la 


grandeur m, {{ô, — 812} correspond à m, {ô,} —® (cf. problème 2.6, 
tome I)ona 


M:{0n}> (2.40) 


[1+b, (0)? 
In (0) 
*) L'information est égale à zéro, par exemple, si la fonction de vraisem- 
blance ne dépend pas de #. 


*+) La formule (2.40) est appelée inégalité de Rao-Cramer et paris inegalf 
de Fréchet. Ces trois auteurs ont obtenu ce résultat indépengamment 


ms {[Ên — 01°} > Mo {On} > (2.41) 
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Pour les estimations à biais constant (b° (8) = 0) et, en particulier, 
pour les estimations non biaisées (b (0) = 0) on a 


© 1 
M:{0}> T6)” (2.42) 


Dans ce cas la limite inférieure de la variance des estimations est 
une grandeur inversement proportionnelle à l'information contenue 
dans l'échantillon. Les inégalités (2.40) à (2.42) deviennent des éga- 
lités pour les estimations efficaces. 

Pour des échantillons de taille limitée, les cas où dans (2.42) il 
y a égalité sont extrêmement rares. Généralement la limite infé- 
rieure de la variance des estimations absolument correctes est plus 
grande que la grandeur inverse de l'information de Fisher. C’est 
pourquoi l'efficacité est la mesure non pas de la qualité de l’esti- 
mation, mais de la qualité de la limite inférieure dans l'inégalité 
de Rao-Cramer. Si la variance de l'estimation atteint exactement la 
limite inférieure, différente de Z3' (8), l'écart par rapport à l'unité 
de l'efficacité ne peut servir d'indice significatif de l’insuffisance 
de l'estimation (pour plus de détail cf. [2], chap. VIII, ainsi que [11)). 

Il est facile, en utilisant (2.10), d'exprimer l’ information à à l’aide 
de la fonction densité de probabilité w, (x; ®). Comme 


InWa(zi,...,2n|0)= D inwi (x; ; Ô) 
i=1 
et 


nr 


(g 1 
55 Walz, ...,2n| 0) = DER EI wi(z1; Ô), 


i—= 


compte tenu de (2.37) on a 


In (9)= M {= MW }= Le [ (How) 


n 
X Wan dx . am = |. Sats* 


X EL (so) il Il wi(zi; Ÿ)dri... dtn = 


[rimes 8) fuites )dm+ 
4—1 —00 
ñn co co 9 . 8 
+ OZ (MO de, Eee L az. 


i, (475) — oo — 00 
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Comme les termes de la première somme sont égaux et 


° à . Ÿ à 
| MOD qu = | Li (Tr ; Ÿ) dtn == 0, 


il vient 


Ia(8)=n [ [5 In un (x : 0) l'un(z; ) dr — 


pr (+ In w (x: |} (2.43) 


1, (0) = n1, (6). (2.43) 
Ainsi, l'information est proportionnelle à la taille de l'échantil- 
lon, le facteur de proportionnalité dépendant de la distribution ini- 
tiale. 
En substituant (2.43) dans (2.41) on obtient 


ms {[Ün — 01} > Med) > 
1+b7 (0)]° 
_ [1 +8; (0)] (2.44) 
ô 12 
| [5 nu (r : 0) | wy(x; Ÿ)dr 


La grandeur m, {[#, — 81°}l/2 sert parfois de mesure de la pré- 
cision de l'estimation. Le second membre de l'inégalité (2.44) donne 
la précision potentielle. 

Il faut remarquer que pour une distribution discrète l’expres- 
sion (2.43) devient 


a1 13 Ÿ 2 
In(9)=n 9 [SET | p(xi : 8). (2.45) 
Supposons maintenant que l'estimation Ÿ, = gts - -. Zn) 
soit suffisante. On a alors en vertu de (2.28) 
(4) Ô À 
ETS In Wh (x, cs Tn [Ÿ) —= 55 10 f(Ün, Ÿ). 


ou 


? 


| 


Supposons de plus que l’on ait 
f (Ën, 8) = exp { (9) Ib, + c (8)1} (2.46) 
et, par conséquent, 
= ; A d 
in f (ns 0)" (0) Ên + LA (0) c (0). 
On a alors en vertu de (2.37) et (2.46) 
a . a d 
ma {inf (On, ©} = 8" (0) m1 (ôn) + 2 LE (0)c (8) = 0 


__ _9_ 
7 9 


et 


In W In f(Ÿn, 9)= 4" (0) [ôn—mitôn)]. (2.46) 
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En portant (2.46”) dans (2.38) on obtient 
k' (8) ma 6, — mi {81°} = k° (8) M: {8} = 1 + ba (8). (2.47) 
D'un autre côté [cf. (2.46”)] 
) 2 , a N ’ 
Ia (9)=m, {(55 0 Wa) À =1k (OEM {8n).  ‘(2.47') 
À partir de (2.47) et (2.47’) on trouve 


, In (Ô , 
(NS » (2.47) 
et, par conséquent, 
à [1+6,, (0)F° 
ME TE — 


On a ainsi démontré que parmi toutes les estimations de biais 
donné b,() l'estimation suffisante d'un certain type (satisfaisant aux 
conditions (2.46) et (2.47°)] a une variance minimale (cf. (2.41)]. 

Ainsi, toute estimation efficace appartient à la classe des statisti- 
ques suffisantes, tandis que seules certaines des estimations suffi- 
santes sont efficaces. 

Dans ce paragraphe nous n'avons envisagé que des estimations 
conditionnelles. Cependant la notion d'efficacité peut être égale- 
ment étendue aux estimations inconditionnelles, ceci en prenant la 
moyenne de (2.30) sur 6. 

L’inégalité de Rao-Cramer (2.40) s'écrira alors comme suit 


co | \ w1(8)[1+0, (8)F dû 
| ay (9) m4 La — DE LB > = 


2.2.6. Estimations d'intervalle. (On entend par estimation 
d'intervalle du paramètre 81 l'intervalle dont les limites 610 et 


8%") sont des fonctions des valeurs échantillonnées zx,, . .., x, 
et qui contient le paramètre estimé avec une certaine probabilité. 
Sous la forme analytique ceci peut s'écrire comme suit: 


P {00 8 < TP} = +. (2.48) 

La probabilité y est appelée coefficient de confiance et les estima- 
tions 0479 et ÈSUP) sont respectivement les limites inférieure et 
supérieure de confiance. L'’intervalle çéino, SUP) est appelé inter- 


valle de confiance. 
Parfois l'intervalle de confiance est défini comme suit: 


AND = Ÿ, — 8,6, (2.49) 
PEU = à, + ex, (2.49') 
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où Ÿ, est l'estimation ponctuelle du paramètre 8: e, et e. sont des 

nombres positifs. Pour une valeur donnée de , celles de &, et &: 

peuvent être calculées d’une infinité de manières. Si W: (2) est la 
n 


densité de probabilité d’une estimation ponctuelle, on a en vertu de 
(2.48), (2.49) et (2.49°) 


P {8 (1 — 82) < 04 << 8 (1 + &)} = y, (2.50) 
on en tire deux relations donnant e, et &: 
Ü(1 —-P9) 
| Ws ()ds= ve (2.51) 
We (z) dz = V1, (2.51°) 
Ô(1+2:) 


Où V1, 2 sont des nombres positifs quelconques inférieurs à l'unité, 
avec de plus y; + Y: = 1 — Y. 

Pour &, — £> — & la formule (2.50) donne la relation entre le 
coefficient de confiance y, la longueur relative 2e de l'intervalle de 
confiance et la taille de l'échantillon 7: 


Ô(1-+e) 
P{B (1—e) <<, < 8 (1+e)} — | Wa (ds=v (252 
Ô(1—-e) 


Si l’on se donne la longueur de l'intervalle de confiance, pour 
les estimations consistantes et sans biais le coefficient de confiance 
croît avec la taille de l'échantillon, tendant vers l'unité. Pour une 
taille donnée de l’échantillon, le coefficient de confiance sera d’au- 
tant plus grand que sera large l'intervalle de confiance. En d’autres 
termes, pour une taille donnée de l'échantillon, il est impossible 
d'élever le coefficient de confiance sans augmenter la longueur de 
l'intervalle de confiance ni de restreindre cet intervalle sans réduire 
le coefficient de confiance. 

Trois types de problèmes utilisant les estimations d'intervalle 
d'un paramètre peuvent être formulés. Pour un échantillon de taille 


donnée x on prend l'estimation ponctuelle Ÿ,, on calcule sa distri- 
bution W3, (z) et pour une valeur donnée de e on trouve de (2.52) 


le coefficient de confiance y. Dans les mêmes conditions on peut, 
pour un y donné, trouver la longueur relative 2e de l'intervalle de 
confiance. Enfin, on peut se donner le coefficient de confiance y 
et la longueur relative 2e de l’intervalle de confiance. On trouve 
alors à partir de (2.52), par approximations successives, la taille de 
l'échantillon laquelle permet d’avoir simultanément y et e donnés. 
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2.3. MÉTHODES D'OBTENTION DES ESTIMATIONS 
POUR DES CRITÈRES DONNÉS 


2.3.1. Estimation du maximum de vraisemblance. La fonction 
de vraisemblance d’un échantillon de taille rz pour des valeurs échan- 
tillonnées z,, ..., x, est une fonction du paramètre inconnu Ÿ 
[cf. (2.10)] 


n 
Wat -..tnl d)= | wi(zn : Ÿ). 


Pour souligner ceci, introduisons une nouvelle désignation pour la 
fonction de vraisemblance, soit : 


LD) = Wir... me 0). (2.53) 


Choisissons pour l'estimation conditionnelle du paramètre in- 
connu la valeur de la variable Ÿ pour laquelle, pour des z,. ... 
-+ Zn donnés, la fonction de vraisemblance ZL, (8) atteint un 
maximum. L'’estimation satisfaisant au critère de qualité formulé 

est dite estimation du maximum de vraisemblance. 
La condition d’extrémum de la fonction de vraisemblance s'écrit 


comme suit : . 

oL e 

2e Q 0. (2.54) 
Cependant, dans la pratique, on n'utilise pas l'équation (2.54). 
Un artifice mathématique simple permet de simplifier cette équa- 
tion. En effet, le logarithme étant une fonction monotone, les extré- 
ma des fonctions L. (8) et In L, (ô) correspondent aux mêmes va- 
leurs de l'argument Ÿ. L’équation du maximum de vraisemblan- 
ce s'écrit alors 


dInLx(Ÿ) 
ag — 0 (2.09) 
ou, compte tenu de (2.10), 
oi . Ô : 
5 26 0 0, (2.56) 


R=1 
Dans le cas d’une distribution discrète, compte tenu de (2.10), 


on obtient 
ñn 


dinp(zn; 0) _ 7 
À — 5 — = 0. (2.56) 


L'équation du maximum de vraisemblance est en général une 
équation non linéaire, algébrique ou transcendante, pouvant avoir 
plusieurs solutions correspondant aux maxima et aux minima 
relatifs de la fonction de vraisemblance. Chacune des solutions 
Vn = £ (Zi, - -., Th), Correspondant à un maximum de la fonc- 
tion de vraisemblance, est une estimation du maximum de vrai- 
semblance du paramètre inconnu. Le problème se réduit dans ce 
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cas à la recherche de la solution correspondant au maximum abso- 
lu de la fonction de vraisemblance. 

Si pour une taille donnée nr de l'échantillon, l'estimation con- 
ditionnelle efficace non biaisée Ÿ, er du paramètre Ÿ existe, l’équa- 
tion de vraisemblance (2.55) peut en vertu de (2.46”) s’écrire comme 
suit : 

Ô In L, (Ÿ) 
0Ù 


où conformément à (2.47”)on a 
k' (8) = Z, () > 0. 
> 0 pour D << Ÿ, err et 212 0) 


= k' (9) [Ün er — 0] = 0, 


dlnL., (6) 
TE < 0 pour Ÿ > 


> Êherr, l'estimation du maximum de vraisemblance est égale à 
ÙÜn _— ÙÜn eff: 
On en tire une conclusion fort importante. 
Si l'estimation efficace non biaisée Ÿ, er existe, l'équation du 
maximum de vraisemblance a une solution unique égale à Ÿ, «r. 


Si l'estimation suffisante Ÿ, — g (x, ..., z,) existe, en vertu 
de (2.28) et (2.55) l'équation de vraisemblance peut s’écrire comme 
suit : 


Comme 


oinLs(8) _ 2lnflg (rs -.., zn) 0] _p 
dd ES) es 


Par conséquent, s’il existe une estimation suffisante, chaque solu- 
tion de l’équation de vraisemblance est une fonction de cette esti- 
mation suffisante. 

On peut montrer (cf. [5], $ 33) que, pour des restrictions pas 
trop fortes relatives à la fonction w, (x; Ÿ), l'estimation du maxi- 
mum de vraisemblance est consistante. Cette estimation est asymp- 
totiquement correcte et asymptotiquement efficace. De plus, la distri- 
bution de l’estimation du maximum de vraisemblance est asympto- 
tiquement normale de moyenne Ÿ et de variance égale à l'inverse 
de la valeur de l'information [cf. (2.48)], c'est-à-dire pour nr —+ oo 


" In (Ÿ In (Ÿ 0 >: 
WG) Sfexpl 07], (257) 


de plus, 7, (Ÿ)— oc pour nr —+ 00. 

2.3.2. Solution approchée de l'équation de vraisemblance. Des 
méthodes simples ne permettent pas toujours de trouver la solu- 
tion exacte de l'équation de vraisemblance (2.55). Dans le cas géné- 
ral, on peut recommander la méthode des approximations succes- 
sives *). 

*) C'est une variante de la méthode itérative de Newton. Pour plus de 


détails voir, par exemple, E. Boot. Méthodes numériques (en russe). Ed. 
« Physmathguiz », Moscou, 1959, page 187. 
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En développant le logarithme de la fonction de vraisemblance 
en série de Taylor au voisinage du point Ÿ, et en ne gardant que 
les trois premiers termes on a 


In La (9) In Le (80) + (8 — 80) | 3 In Le nil PAL 


+5 (060) en Le (0) |, (2.58) 


A partir de (2.58) on trouve directement 
__ _ EE In Le(8) |, +(9—80) Es ar In Li (8) | 
@. à 


Prenons pour première approximation de la solution de l’équa- 
tion du maximum de vraisemblance *) une estimation grossière 


quelconque Ÿ, du paramètre inconnu 8. Ce peut être la moyenne 
échantillonnée, ou la médiane échantillonnée, ou toute autre esti- 
mation. Utilisons maintenant (2.59) pour le calcul de la seconde 


approximation 9 en tant que racine de l'équation 
In L,(Ÿ “ia ie 8,)| In L,(8 ..=0. (2.60 
[mL(o)] , +(0—80[557mL.(0)]  =0. (2.60) 
En vertu de (2.60) on a 
_. + In Lx @ | 


2e L— Es In L. o] is. 


En remplaçant — _ In L, (9) par sa valeur moyenne (prise sur 
l'espace des échantillons) il vient 


0° 0° 
Je In Le (0) & m, (or ln Ls (8)} ” 


(2.61) 


-{. [ FT [In L,(6)] L.(8) di ... dxn = 


—œo 


={. Ji (TE — GE 20 À Lx (8)} dx: i. OLh: (2.62) 


En vertu de (2.37) on obtient 


| | ? ET dr, ... dtn =0. (2.63) 
*) Nous supposons ici que la fonction de vraisemblance est unimodale 


ou que la première approximation se trouve au voisinage du maximum prin- 
cipal de cette fonction. 
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Et à partir de (2.62) 
In L.(0)&m (7 In L. (#)} — 
dlnL,(ÿ) 1° 
= —m {[ SET) = 7 (0). (2.69 


En portant (2.64) dans (2.61) on trouve l'expression de la seconde 
approximation, soit : 


V2 di+ 


no 


_ : 
: x Es In La(9)] (2.65) 


On peut obtenir l'approximation suivante, en remplaçant Ÿ, dans 
le second membre de (2.59) par > donnée par (2.65), en égalant à 
zéro ce second membre, en trouvant la racine de l'équation et en 
y remplaçant de plus la dérivée seconde négative par sa valeur 
moyenne, qui est l'information 7, (ÿ2). Une fois la m-ième appro- 
ximation trouvée, l’approximation suivante est donnée par la for- 
mule 


Éma= Ont [gg in Le(0)] (2.66) 


qui est une généralisation évidente de (2.65). 

2.3.3. Maximum de densité de probabilité a posteriori du para- 
mètre estimé. Supposons maintenant que le paramètre inconnu 
Ÿ soit une variable aléatoire dont la densité de probabilité est w, (). 
À l'aide de la formule de Bayes [cf. (2.41), tome I] on peut trouver 
la densité de probabilité conditionnelle du paramètre pour un 
échantillon donné x, . .., x, : 


Wir ce, ra) 20) (2.67) 
\ 1 (Ô) L> (Ô) dù 

Choisissons en qualité d'estimation du paramètre la valeur de 
la variable Ô pour laquelle, pour des x, ..., zx, donnés, la den- 
sité de probabilité a posteriori du paramètre estimé est maxima- 
le. Compte tenu de la remarque faite à propos de l'équation du 
maximum de vraisemblance (2.55), on peut écrire sous la forme 
suivante l’équation de l'estimation correspondant au maximum de 

la densité de probabilité a posteriori : 


— In [w, (8) L; (8)] = 0 (2.68) 


ou 


Ô É Ô 
nu (0)+ Din u (zx| 9) = 0. (2.69) 


Rk=1 
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Les estimations envisagées ont des propriétés voisines de celles 
des estimations conditionnelles du maximum de vraisemblance 


(cf. [9], $ 21.1.2). Si 6, er est l'estimation inconditionnelle effi- 
cace et non biaisée du paramètre Ÿ, l'équation (2.68) a une solu- 


tion unique égale à 6, «r. Pour des restrictions assez faibles, l’esti- 
mation correspondant au maximum de densité de probabilité a 
posteriori du paramètre estimé est consistante et asymptotiquement 
efficace. Pour #7 — la densité de probabilité de cette estimation 
peut être représentée par la relation asymptotique suivante: 


In (Ÿ Th (Ô = 
W. (2) 7/ tn ON exp { — — 2 on ç ms (0) 2|. (2.70) 


Si la distribution a priori du paramètre Ÿ est exactement ou 
à peu près uniforme sur un certain intervalle fini, on a en vertu 
de (2.67) 
Wi (8 | Ti, ._. Th) = kL, (8), 


où k est une constante ne dépendant pas de 6. 

Dans ce cas les estimations du maximum de vraisemblance 
seront en même temps des estimations correspondant au maximum 
de la densité de probabilité a posteriori du paramètre estimé ©. 

2.3.4. Estimations de Bayes. Les estimations ponctuelles obtenues 
pour les critères du maximum de vraisemblance ou de densité de 
probabilité a posteriori répondent aux exigences d’un type spé- 
cial et peuvent évaluer mal les pertes dues aux estimations peu heu- 


reuses. En effet, à toute estimation Ÿ, = g (x, ..., x,) calculée 
à partir de l’échantillon observé x, . .., x, correspond une erreur, 


mesurée par la différence Ÿ — ÿ,. Cette différence variera d’un 
échantillon à l’autre, parfois elle peut être insignifiante et parfois 
très importante. Pour en tenir compte on associe à chaque erreur 
un certain poids et l’on introduit une fonction de pertes non néga- 


tive II (8,, 8). Dans le cas général cette fonction peut dépendre 


non seulement de la différence 0 — Ÿ,, mais également de cha- 
cune des grandeurs figurant dans son argument. 

Le choix de la fonction de pertes est en certain sens arbitraire 
et dépend du cas envisagé. Le plus souvent, dans les applications, 
on rencontre les fonctions suivantes (voir fig. 2.3): 

la fonction de pertes simple *) 


I (6,, 9) =c— 6 (8, — 8), c> 0; (2.71) 
la fonction de pertes égale au module de l'erreur 
IT (ôn, 8) = | On — 8 |; (2.72) 


*) La fonction (2.71) n’est pas négative à l’exception du point ô, = #. 
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la fonction de pertes quadratique 
II (8, ©) = (Ÿ, — 8)’; (2.73) 


la fonction de pertes rectangulaire 


IT (Ë», o={ . (2.74) 


Ÿ | < 
1, |9—8,1>e; 
la fonction de pertes exponentielle 
IT (,, 8) = 1 — exp [—k (, — D]. (2.75) 
Toutes les fonctions de pertes mentionnées sont des fonctions symé- 


triques de l'erreur Ÿ, — +. 


On peut utiliser comme mesure de la qualité d'une estimation 
conditionnelle la moyenne des pertes prise sur tous les échantillons 


ND, 0) 


{ 


-£ 9 € ü-U 
ei [1 
Fig. 2.3. Fonctions de pertes: 


1 — simple; 2 — égale au module de l'erreur: 
3 — quadratique: 6 — rectangulaire, 5 — expo- 
nentielle 


possibles, compte tenu de la fréquence d'apparition des différents 
échantillons, c’est-à-dire de la fonction de vraisemblance ZL. (8). 
Cette moyenne égale à 


r (9) = mi {II (Ën, 0)} = | . | IT (Ÿx, 8) Lx (9) dr... drn, (2.76) 
est appelée fonction conditionnelle de risque. Demandons maintenant 
que l'estimation conditionnelle Ÿ, minimise la fonctionnelle (2.76). 
L'’estimation, oplimale au point de vue du critère du minimum 


de la fonction de risque, est appelée estimation conditionnelle de 
Bayes. 


Si le paramètre estimé Ÿ est aléatoire et w, (Ÿ) est sa densité 
de probabilité, en prenant la moyenne de la fonction conditionnelle 
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de risque sur toutes les valeurs éventuelles de Ÿ, on obtient le risque 
moyen 


R=— | u (8) r (8) dB. (2.77) 


En portant dans (2.77) l'expression de r (8) à partir de (2.76) 
et compte tenu de (2.67) on peut écrire le risque moyen sous la 
forme suivante: 

R=— | _ | J (On Zn) Wn(ais ce. Tn)dri.. dan = 


— C0 


— mi{J (Ÿalzs ...,zn)}, (2.78) 
J(Bntass cn) À N(Ën, 8) Wa(8 ze ..., zn)d®; (2.79) 


8 


Wa (zu cn) = | u (9) Le (9) dd. (2.79') 


— 00 


Les estimations obtenues d’après le critère du minimum de risque 
moyen sont appelées estimations inconditionnelles de Bayes (ou sim- 
plement estimations de Bayes). 

L’estimation de Bayes pour une fonction de pertes et une distri- 
bution a priori du paramètre Ÿ données peut être trouvée à partir 
de la condition du minimum de la fonctionnelle (2.78) dépendant 


de la forme de la fonction Ÿ, = g (x, -.., zn). Comme la fonc- 
tionnelle J dépend de g et ne dépend pas des dérivées partielles ns ; 


l'équation d'Euler bien connue dans le calcul des variations, uti- 
lisée pour la détermination d’une fonction extrémale s'écrira comme 
suit : 

00 (2.80) 


à condition toutefois que la dérivée dans (2.80) existe. 

2.3.5. Fonction de pertes simple. Nous allons écrire l'expres- 
sion de la fonction conditionnelle de risque pour la fonction de 
pertes simple. En portant (2.71) dans (2.76) et en utilisant la pro- 
priété de filtrage de la fonction delta dans l'intégrale multiple 
[c£. (3.117), tome Il], on obtient 


r (8) = c — Ls,, (8), (2.81) 
où L$, (6) est la densité de probabilité de l'estimation 8, pour ® 


donné. Pour que #%, soit une estimation conditionnelle de Bayes, 
elle doit minimiser la fonction de risque r (8), ce qui équivaut à 
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exiger que 
Lés (Ô) > Lg. (Ÿ). (2.82) 


Cette expression signifie que Ÿ: est une estimation conditionnelle 
du maximum de vraisemblance. 

Ainsi, les estimations conditionnelles du maximum de vrai- 
semblance sont une forme particulière des estimations condition- 
nelles de Bayes pour une fonction de pertes simple. 

En portant (2.81) dans (2.77), on trouve également l’expres- 
sion du risque moyen pour la fonction de pertes simple, soit : 


R=c— | u(9) La. (9) dd, (2.83) 


en vertu de laquelle l'estimation 6* est une estimation incondi- 
tionnelle de Bayes si 


uw, (0) Lis (9) > ur (8) L3 (8). (2.84) 


Ainsi, l'estimation correspondant au maximum de densité: 
de probabilité a posteriori [cf. (2.67)] est une forme particulière des. 
estimations inconditionnelles de Bayes pour une fonction de pertes 
simple. 

2.3.6. Fonction de pertes quadratique. La fonction de risque 
conditionnelle est égale à 


00 oo 


r(8)—= | .. | (a — 0° L, (0) dr... drn, (2.85} 


—œo —œ 


c’est-à-dire qu'elle coïncide avec l'écart quadratique moyen de 
l'estimation par rapport au paramètre estimé (ou avec la variance 
de l'estimation, si celle-ci est absolument correcte). C’est pourquoi 
la condition du minimum de la fonction de risque r (ÿ) se réduit 
à la minimisation de m, {(d, — ®}°}, c'est-à-dire à la recherche de 
l'estimation efficace (cf. $ 2.2.5). Ainsi, l'estimation efficace (condi- 
tionnelle) est une estimation de Bayes conditionnelle pour une fonction 
de pertes quadratique. En portant (2.73) dans (2.79) on trouve la 
fonctionnelle J (Ÿ, | z;, . . ., x.) dans l'expression du risque moyen 
(2.78) 


J (Bari <.., n)— | (ôn— 0) Wi(Bl ar, -.., 2n)dO. (2.86) 


© 


En portant alors (2.86) dans (2.80) et en résolvant l'équation 
par rapport à la fonction inconnue Ÿ, = g (x, ..., x,), on trouve 
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l'expression cherchée de l'estimation de Bayes, soit *): 


Le y 


Êt— 9" (21... In) = | OW,(lz, ..., zn)d® (2.87) 


ji [ Ou (0) Lx (8) 48 
Êa— mi{D rs, Zn) 2,  (2.87') 


[ ui (8) L, (6) 48 
En vertu de (2.87) l'estimation de Bayes pour une fonction de pertes 
quadratique coïncide avec la moyenne conditionnelle du paramètre 
estimé Ÿ pour des zx, ..., zx, donnés. 
En portant (2.87) dans (2.86) on trouve (pour une estimation 
absolument correcte) 


J* = J'(Ë* |x, ._..) XTn) = Mo {0 | x, 1 zh}: 


et, par conséquent, le risque minimal (bayesien) pour une fonction 
de pertes quadratique est égal à 


R* = ms {Ma (Bla ..., 2)}) = Ma 8). (2.88) 


A la différence de la fonction de pertes simple, pour laquelle 
l'estimation de Bayes est déterminée par les propriétés locales de 
la densité de probabilité a posteriori du paramètre estimé Ÿ au 
voisinage de son maximum, l'estimation de Bayes pour une fonc- 
tion de pertes quadratique dépend de la variation de la densité 
a posteriori mentionnée, dans toute la gamme de variation du para- 
mètre Ÿ. Il faut cependant remarquer que pour une densité de pro- 
babilité a posteriori W: (8 | x, ..., x,) unimodale et symétrique 
par rapport au mode, l'estimation de Bayes pour une fonction de 
pertes quadratique coïncide en vertu de (2.87) avec l'estimation 
suivant le critère du maximum de densité a posteriori, qui est l’esti- 
mation de Bayes pour une fonction de pertes simple. 

2.3.7. Fonction de pertes égale au module de l'erreur. Pour la 
fonction de pertes (2.72) on trouve que la fonction 


J (8, |21, - -., tn) dans l'expression du risque moyen (2.78) est 


J(Ênlts -.. Tn) = | Lôn—0]W (82, ..., rn) dô — 


On 

= | (ôn— 0) Wi(® li, ..., ïn) dO — 

= | (Ên—0)Wi(Blz, ..., zn)dO. (2.89) 
© . 


n 
*) Il est facile de voir que (2.87) correspond au minimum du risque moyen R. 
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En portant (2.89) dans (2.80) on trouve 


Ên oo 
dJ . ; = 
eu | W;(#lz, … n)d0— | Wi(® li, .., tn) dO — 0 
Lo ;. 
ou 
ôn - 
| Wi(Olr, -.., ïn) dO = | Wi(Blzis -.. Zn)dO. (2.89) 


œ 


n 

L'égalité (2.89’) montre que l'estimation de Bayes, pour une 
fonction de pertes égale au module de l’erreur, coïncide avec la 
médiane conditionnelle du paramètre estimé Ô pour des x, ..., x, 
donnés. 

Si la densité de probabilité a posteriori du paramètre estimé 
est une fonction unimodale et symétrique par rapport au mode, la 
médiane et la moyenne de cette fonction coïncident et sont égales à 
son mode. Dans ce cas les estimations de Bayes, pour une fonction 
de pertes égale au module de l'erreur et une fonction de pertes qua- 
dratique, sont les mêmes et coïncident avec l'estimation du maxi- 
mum de probabilité a posteriori. 

2.3.8. Fonction de pertes rectangulaire. Pour la fonction de 


pertes (2.74) on trouve de (2.79) que la fonction J (ÿ, |, ..., ,) 
dans l'expression du risque moyen (2.78) est 
Ô,-E 


J(Ëalzs, -.., Tn) = | Wi(9{r, -.., ïn) dO + 


(0 
œ 


+ | HG... 2) d8 = 
Ô,+r 
Ô,+e 
1e | Wi(Olzs +. Tn)d0. (2.90) 
à ce 


En portant (2.90) dans (2.80) on obtient pour l'estimation de Bayes 
dans le cas d’une fonction de pertes rectangulaire l'équation trans- 
cendante suivante: 


Win + els ..., 2) = Wi (0, — e |zs, ..., z,). (2.90) 
Si la densité de probabilité a posteriori du paramètre estimé est 
une fonction unimodale et symétrique par rapport au mode, l’uni- 


que solution de (2.90°) est l'estimation Ÿ, coïncidant avec le mode 
de cette fonction. Par conséquent, dans ce cas l'estimation de Bayes 
pour une fonction de pertes rectangulaire coïncide avec l'estimation 
correspondant au maximum de probabilité a posteriori (c’est-à-dire 
avec l'estimation de Bayes pour des fonctions de pertes simple et 


8—0682 
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quadratique). L'’estimation conditionnelle de Bayes sera alors 
l’estimation du maximum de vraisemblance. 

2.3.9. Fonction de pertes symétrique. Soit une fonction de pertes 
dérivable arbitraire, paire par rapport à l'erreur, satisfaisant donc 
à la condition suivante: 


II (Ÿ, — 0) = I (8 — 6,). (2.91) 
Supposons que la densité de probabilité conditionnelle du para- 
mètre Ÿ pour des x,, ..., x, donnés soit unimodale et symétrique 


par rapport au mode. En vertu de cette hypothèse, la moyenne 
conditionnelle est le mode de la densité conditionnelle, c’est-à-dire 
que W, (8 — m, {8 | x, ..., x,} | m1, . . ., ,) est une fonction 
paire de l'argument Ÿ — m,. Ecrivons maintenant l'expression de 
la dérivée de la fonctionnelle (2.79) 


a 2, 
= Î Lg 0NWi(8—mi {las ..., anpfru .., n) dd. 
(2.92) 


Comme II (g — ©) est une fonction paire, sa dérivée est une fonc- 
tion impaire de l'argument g — Ÿ. Le second facteur de la fonc- 
tion sous l'intégrale (2.92) étant une fonction paire de 


8 — m, {0 |zi, . .., x,}, la grandeur 9 est identiquement nulle, 


si l'estimation Ÿ, = g(x,, ..., x.) est égale à 
D —= mi {0 |ri, - .., Zn}. (2.93) 


En effet, lorsque l’égalité (2.93) se trouve vérifiée, la fonction sous 
l'intégrale devient une fonction impaire par rapport à la nouvelle 
variable d’intégration + = ®# — m, {0 | 21, ..., 2, 

Ainsi, l'estimation (2.93) est une solution de l'équation (2.80) 
et, par conséquent, une estimation de Bayes. 

En comparant (2.93) et (2.87), on voit que l'estimation de 
Bayes, pour une fonction de pertes quadratique (quelle que soit la 
densité de probabilité a posteriori du paramètre estimé), est égale- 
ment une estimation de Bayes pour une fonction de pertes symétri- 
que, si la densité de probabilité a posteriori du paramètre estimé 
est unimodale et symétrique par rapport au mode. 

2.3.10. Estimations du minimax. Lorsque la distribution a priori 
wi (Ÿ) n'est pas connue, on peut essayer d'obtenir l'estimation 
inconditionnelle du paramètre aléatoire Ÿ à partir du critère du 
minimaz. Soit une famille de courbes de fonctions conditionnelles 


de risque correspondant à différentes estimations 8, (fig. 2.4). On 


appelle estimation du minimax Ÿ, mm l'estimation pour laquelle le 
supremum de la fonction conditionnelle de risque r (8) n'est pas 
supérieur à ceux de la même fonction (par rapport à la variable Ÿ) 
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pour toute autre.estimation. Tout’comme le critère du minimax en 
cas d’alternatives, l’estimation du minimax nous garantit que les 
pertes en moyenne (sur l’ensemble des échantillons de taille donnée) 
ne seront pas supérieures 

à une certaine valeur T(U) | 

Fmin. Souvent l’estima- 
tion du minimax peut 
s'avérer trop prudente 
{voir fig. 1.1). 

Comme l’a montré 
A. Wald [14], l’estima- 
tion du minimax est une 
estimation de Bayes pour 
la distribution a priori Ü 


la See favorable du Fig. 2.4. Famille de courbes des fonc- 
parametre esiime, pour tions de risque conditionnelles pour diffé- 
laquelle le risque moyen rentes estimations 


(pour une fonction de 

pertes donnée) est maximal. Il a montré également que l’esti- 
mation de Bayes pour laquelle la fonction conditionnelle de ris- 
que devient une constante (c'est-à-dire ne dépend pas de Ÿ) est 
une estimation du minimax. Cependant, si cette fonction devient 
une constante pour une estimation non bayesienne, ceci ne signifie 
pas que l’estimation est du minimax. D'un autre côté, si la con- 
dition r (8) — const n’est pas réalisable pour tous les Ô pour des 
estimations de Bayes, ceci ne signifie point qu'on ne peut pas trou- 
ver l'estimation du minimax. 

En vertu de (2.77) on a pour r (9) = rin 


Rmax = Tmin» (2.94) 


c'est-à-dire que le maximum du risque moyen coincide avec le 
minimum de la fonction de risque, si l'estimation du minimax est 
une estimation de Bayes. 


2.4. ESTIMATIONS SIMULTANÉES D'UN ENSEMBLE 
DE PARAMÈTRES 


2.4.1. Principales propriétés. La théorie des estimations exposée 
ci-dessus peut être étendue aux cas où la distribution initiale dé- 
pend de plusieurs paramètres inconnus Ÿ,, ..., Ü,. À partir d'un 
échantillon de taille donnée n appartenant à la distribution 
w, (x; 01, .. -, Ü) on peut trouver m fonctions des valeurs échan- 
tillonnées (estimations conditionnelles) | 


0 = gti (x, ..., an), = 1, ...,m, (2.95) 
S* 
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en supposant que les valeurs des paramètres Ÿ,, . .., Ÿ, sont don- 
nées, ou encore r»# paramètres de la fonction 


ép= | .. | RD (ris ces En) Wm (Oise Om) LV... dm (2.95') 


dont la moyenne est prise sur la distribution w,, (0,4, . .., 0) 
a priori conjointe (estimations inconditionnelles). 


Toute estimation conditionnelle 8% est dite consistante si pour 
n —+ oo elle converge en probabilité vers le paramètre &; et abso- 
lument correcte si pour un 7 quelconque sa moyenne sur l’ensemble 
des échantillons est égale à 8;. D'une manière analogue chacune des 
estimations inconditionnelles est dite consistante si pour 7 —+ 
elle converge en probabilité vers m, {8;} et absolument correcte si 
pour tout z sa moyenne sur l’ensemble des échantillons est égale 
à my {0}. | 

Les estimations g( (x,, ..., æ,), i — 1, ..., m sont simul- 
tanément suffisantes si la fonction de vraisemblance de l'échantillon 


LL 


Lx(8)= Wars -.., Tnl 01... dm) = [] Wy (Th ; O4, --. Om), (2.96) 


Ô — (V1, .._., Ù mn): 
peut s’écrire sous la forme d'un produit 


L, (6) = f {gt (xs, ..., zh), ... 


ss CDS cu D) dia ls mm) (2.97) 
Soit DU) — gi (rs, . .., zh) l'estimation non biaisée du para- 
mètre Ÿ;, à — 1, ..., m. Considérons les moyennes suivantes pri- 


ses sur l’ensemble des échantillons de taille donnée nr : 


i,J d fe) 
LD (84, ..., Om) = M {in La (9) In L(9)} 2 


03 
= — M: (5; L< (9) } . (2.98) 


La matrice carrée de dimension m x m dont les éléments sont 
1% est appelée matrice informationnelle de Fisher. On voit à par- 
tir de (2.98) que la matrice informatiennelle de Fisher est la matrice 
de corrélation de l’ensemble des variables aléatoires liées 


ô , 
3; 1 L,(®), i =1,..., m, dont les moyennes sont nulles en 


vertu de (2.37). 

Si le déterminant de la matrice informationnelle est différent 
de zéro, l'inégalité de Rao-Cramer (2.41) se trouve généralisée de 
la manière suivante. Pour tous u,, . .., u, réels la forme quadra- 
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tique 
2 2 tm {(8n — 0) (2 —6)}—YS /Juu;>0, (2.99) 


où Yi,5 est l'élément de la matrice inverse de la matrice infor- 
mationnelle de Fisher, c’est-à-dire est égal au rapport du cofacteur 
de l’élément 1%: dans la matrice de Fisher au déterminant de 
cette matrice. 

Le système d’estimations 04), ..., Ôtm) pour lequel (2.99) 
devient l'égalité est dit simultanément efficace. Si ceci n’a lieu que 
pour z —+ oo les estimations sont dites asymptotiquement simulta- 
nément efficaces. 

Les éléments de la matrice informationnelle peuvent s’expri- 
mer en fonction de la distribution initiale 


1 D (8, ..., Om)= rm, {man (z; 8, ee, Om) X 
0 
X 397 nui(x; 1... Om)} - (2.100) 


Cette formule est analogue à (2.43) et coïncide avec cette dernière 
pour m = f. 

En utilisant la notion d’ellipsoide de corrélation (voir annexe X) 
on peut donner une interprétation géométrique de l’inégalité (2.99): 
l’ellipsoide de corrélation d’un système quelconque d’estimations 
des paramètres englobe toujours l’ellipsoïde décrit par l’équation 
de la forme 


LL 

Y > ÉRUTTTEES à (2.104) 

i—1 j=1 
L'ellipsoide de corrélation des estimations simultanément effi- 
caces coïncide avec l’ellipsoïde (2.101). Le rapport du carré du 
volume de l’ellipsoïde (2.101) au carré du volume de l'ellipsoïde 
de corrélation (voir annexe X) peut être appelé efficacité des esti- 
mations simultanées d'un ensemble de paramètres. 

Considérons maintenant les méthodes permettant d'obtenir les 
estimations d'un ensemble de paramètres à partir de critères de 
qualité donnés. 

2.4.2. Méthode des moments. Bien que cette méthode soit basée 
sur des critères de qualité formulés plutôt d’une façon intuitive, 
elle est souvent utilisée par suite de sa simplicité. 

Si la distribution initiale w, (x; 0,, ..., Ÿ.) contient s para- 
mètres inconnus et si le moment d'ordre 2s de cette distribution 
existe, en vertu de la loi des grands nombres tous les moments 
d'échantillon jusqu’à l'ordre s inclus, c’est-à-dire les grandeurs 
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convergent en probabilité, pour 7 — œ, vers les moments corres- 
pondants de la distribution initiale 


œ 


m} (01, JS Ù«) = | rw, (x ; Ü1, à se Ÿs) dx. 
En égalant les moments d'’échantillon et les moments de la distri- 
bution initiale on obtient un système de s équations par rapport 
aux paramètres inconnus 


ma(d 0 La,  k1,...,s (2.102) 


n 
i=1 


dont les solutions 


ÔU) — 90 (rs, ..., en), k = 1, ...,5, (2.103) 


donnent les estimations par la méthode des moments. Pour n —+ oo 
ces estimations sont asymptotiquement correctes, leur distribu- 
tion étant asymptotiquement normale de variance décroissant 


1 
comme —. 
n 


La méthode des moments peut être utilisée pour tout s Ÿ 1 fini. 

2.4.3. Estimations du maximum de vraisemblance. Choisissons 
comme estimations (conditionnelles) des paramètres inconnus les 
valeurs Ÿ,, ..., 0m, pour lesquelles pour des x,, ..., x, donnés 
la fonction de vraisemblance (2.96), en tant que fonction de m 
variables Ÿ;, atteint un maximum. La condition d’extrémum s'écrit 
à l'aide du système d’équations 


an — i= À, ss M. (2.104) 


Cependant, comme dans le cas de l'estimation d’un seul paramètre, 
à la place de (2.104) on utilise le système suivant d'équations de 
vraisemblance : 


2inL,(8) 


É ) 
OÙ; D Inws (2; O1, ..., Ùm) =: 0, 


PL (2.105) 

Si pour les paramètres Ô,, .... 0, les estimations non biaisées 

simultanément efficaces Ur, ..., Or existent, le système 

d'équations de vraisemblance a une solution unique égale à ces 
estimations. | 

Pour certaines restrictions concernant la fonction 

Wy (x; 01, . . ., 8,) la solution du système d'équations de vraisem- 

blance donne des estimations consistantes *), simultanément effi- 


*) Si pour n — œ le nombre m de paramètres inconnus croît avec la taille 
de l'échantillon, les estimations du maximum de vraisemblance peuvent ne 
pas être consistantes (cf. [2], $ 45). 
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caces et asymptotiquement correctes, dont la distribution conjointe 
est asymptotiquement normale de moyennes égales aux para- 
mètres estimés, et de matrice de corrélation qui est l'inverse de la 
matrice informationnelle de Fisher. 

2.4.4. Maximum de densité de probabilité a posteriori des para- 
mètres estimés. Supposons que les paramètres inconnus 4, . . .. Ün 
soient des variables aléatoires, dont la densité de probabilité con- 
jointe est w (01, ..., Üm). La densité de probabilité condition- 
nelle de ces paramètres, lorsque l’on extrait l’échantillon x,, . .. 
…... Zn, est égale à 


W (01, ..., On | Lis .. 2,)= 


= — — Um (V1: == 20) ; (2.106) 
FO our (0 ..., Om) Lx (0) dÙ1... dd 


Prenons pour estimations (non conditionnelles) des paramètres 
aléatoires les valeurs des variables Ÿ:, . .., Ÿ,, pour lesquelles, 
pour des x, . .., x, donnés, la densité de probabilité a posteriori 
(2.106) est maximale. Ces valeurs sont des solutions du système 
d'équations suivant [cf. (2.68) et (2.69)]: 


_. In [Em (Ÿ:, us Ùmn) Lx (Ÿ)] -< 0 (2.107) 


ou 


0 « { 
ET In Um (Ü:, ..., Ùn) + 


+ D In a (x | ds, cs Üm)= 0, 1, ...,m. (2.108) 
Rh=1 


Les estimations correspondant au maximum de densité de probabi- 
lité a posteriori ont des propriétés analogues à celles des estima- 
tions conditionnelles du maximum de vraisemblance examinées au 
paragraphe précédent. Si 61... 6%) sont les estimations incon- 
ditionnelles non biaisées simultanément efficaces des paramètres 
aléatoires di, . . ., Üm, Ces estimations sont l’unique solution du 
système d'équations (2.107). 

| Dans certains cas pour m paramètres inconnus, seule l’estima- 
tion de s L m paramètres est intéressante, quant aux autres m — s 
paramètres, il est préférable de ne pas les étudier du tout. Soient, 
par exemple, les m paramètres inconnus numérotés de telle 
sorte que les s paramètres qu’on veut estimer sont les premiers de la 
rangée. Dans ce cas par intégration sur les variables Ü,+1, . .. 
.. Ÿm On trouve, à partir de (2.106), la densité de probabilité 
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a posteriori de ces paramètres, soit : 
W:(Ô:, ... ARTE .... Th) = 


Le «) 00 


= | ... [ Wn(Ô:, .…..) Vs, Diet Un lis Zn) dOs41  - + dÜm» 


—œO —œo 


puis pour obtenir les estimations simultanées 8, ..., 8%) on 
maximise la fonction conditionnelle W, (®:, ..., Ÿ, | zi, . . ., z,). 

2.4.5. Estimations de Bayes. Lorsqu'on estime m paramètres 
inconnus. m erreurs apparaissent dotées chacune d’un certain poids. 
La fonction de pertes tenant compte des conséquences qu'’entraînent 
ces erreurs dépend, dans le cas général, de 2m paramètres, soit : 


I = HN (84), ..., Om), 6, ..., 0). (2.109) 


On prend parfois pour fonction de pertes la somme des fonctions de 
pertes d’un certain type pour quelques paramètres, sans tenir compte 
de la différence du poids des erreurs pour différents paramètres. 
Ainsi, on peut introduire des fonctions de pertes analogues à (2.71) 
à (2.74), notamment: la fonction de pertes simple 


I — mc— > 6 (ÈS) — 9) : (2.110) 


la fonction de pertes, somme ni modules des erreurs 
= ÿ T0: |; (2.111) 
et la fonction de pertes quadratique 
n= À (0 — 9,)°. (2.112) 


Pour la fonction de pertes rectangulaire [voir (2.74)] on peut 
adopter la loi additive ou multiplicative de combinaison des com- 


posantes. On a alors 


T1 — Ÿ Il, (2.113) 
où oi 

11 — il T1;, (2.113') 
1C1 


1, 10H, l>e 
= { | dé (2.113) 


0, [0 —0]<e. 


Les estimations conditionnelles de Bayes des paramètres incon- 
nus Ÿ,, ..., 0, minimisent la fonction conditionnelle de risque 
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= | _ | n1(8, ..., 80), 8, ..., Om) L.(@)dr,... dun. 


(2.114) 


Si les paramètres estimés sont aléatoires, on prend pour critère 
de qualité le minimum du risque moyen, c’est-à-dire le minimum de 
la grandeur 


R— | ou | Wm (Dis +. Om) (035 es Om) dO1 -  dOms (2.415) 


qui peut également s’écrire comme suit : 


R = f j J (80, ..., 8], ..., Zn) X 
X Wars -.., Zn) dx... dxn, (2.116) 


où 
J(ÈD, .., ÊCIzs c., En) = 
es l : l (8, ..., 80, 61, ..., Om) X 
Ée Wa sr mL c.., Zn) O1... dÜm, (2.117) 
nes vs) = l Re l Um (Vi, ++, Om) Lx (9) dÜ: . .. dm. 


(2.117") 
Les estimations satisfaisant au critère mentionné sont appelées 
estimations inconditionnelles de Bayes des paramètres aléatoires 
ras Unie 
17 9 m 
Le risque moyen À est une fonctionnelle multidimensionnelle 
dépendant des m fonctions O) = g; (x, ..., Zn) à = 1, n. 
Comme ces dernières n’entrent que dans l’expression (2.117) et comme 
Wh >0, le système d'équations donnant les fonctions extrémales 
de là fonctionnelle * Fu peut s'écrire comme suit : 


= = 0, ESS PERS | LP (2.118) 
à condition toutefois que les dérivées dans (2.118) existent. 

En généralisant (2.82) on remarque que les estimations condi- 
tionnelles du maximum de vraisemblance des paramètres inconnus 
0, -.., ŸÜn Sont une forme particulière des estimations condi- 
tionnelles de Bayes pour une fonction de pertes simple. D'une ma- 
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nière analogue, en généralisant (2.84) notons que les estimations 
inconditionnelles correspondant au maximum de densité de pro- 
babilité a posteriori des paramètres estimés sont un cas particulier 
des estimations incondilionnelles de Bayes pour une fonction de 
pertes simple. 

Pour une fonction de pertes quadratique, en vertu de (2.112) 
et (2.118), les estimations de Bayes sont 


g* — | — | D Wm (Ds ces OmlTis + es Tn) LI... dm. (2.119) 


Après intégration sur toutes les variables, à l'exception de #;, la 
formule (2.119) devient 


OP À Wii -.., zu) di. (2.120) 


Ainsi, pour une fonction de pertes quadratique, on peut trouver 
séparément l'estimation de Bayes de chacun des paramètres liés 
V1, . . ., Vn, Comme dans le cas de l'estimation d’un seul para- 
mètre [cf. (2.87)]. 

Les résultats du $ 2.3 relatifs à d’autres fonctions de pertes 
(cf. [9], $ 21.2.3) peuvent également être étendus au cas de l’esti- 
mation d'un ensemble d’un nombre arbitraire fini de paramètres. 
Enfin, il n’y a aucune difficulté de principe à généraliser la notion 
d'estimations du minimax. 


2.5. ESTIMATIONS DES PARAMÊTRES DE CERTAINES 
DISTRIBUTIONS UNIDIMENSIONNELLES 


2.5.1. Estimation conditionnelle du paramètre de la loi exponen- 
tielle. A titre d'exemple d’une loi uniparamétrique nous allons 
étudier la loi exponentielle. La densité de probabilité d’une va- 
riable aléatoire distribuée suivant cette loi est [cf. (1.95)] 


j LE 
ui (x; d)=e LL 
z>0, 8 >0. (2.121) 
La moyenne de cette variable aléatoire est égale à Ÿ et sa variance 
est Ÿ* (cf. problème 2.1, tome Î). 


La fonction de vraisemblance d’un échantillon de taille #7, com- 
posé d'éléments indépendants, est en vertu de (2.10) 


Win (xs m|d)=mrexp(-+ 5 zi). (2.122) 
ii 
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En comparant (2.122) et (2.28), on voit tout de suite que pour 
estimer le paramètre inconnu à de la loi exponentielle, on n’a pas 
besoin de connaître chaque valeur échantillonnée séparément, il 
suffit de connaître leur somme 


FA ER 0 2 Lis (2.123) 


qui dans le cas général est une statistique suffisante. Comme la 


variance de la loi exponentielle est limitée, la moyenne échantil- 
n 


1 
lonnée — F2 z; en vertu du résultat général (2.23) est une estimation 
T1 


Sd et absolument correcte de la moyenne © de la loi expo- 
nentielle. 

Pour illustrer les assertions du $ 2.2.4 notons que la statistique 
suffisante (2.123) impose la relation suivante pour le rapport de 
vraisemblance : 


LAINE AREER SES 
Las... 2n|0)= (2) exp| (- n)2 =]: 
En utilisant (2.43), on peut trouver l'information de Fisher 
pour la loi exponentielle, soit : 


DA PNA 


Les 


| = | (9—z} Le ar. (2.124) 
[U 


GE * 
De plus, la variance de la moyenne échantillonnée est toujours 


(lorsque les éléments de l'échantillon de taille z sont indépendants) 
n fois inférieure à la variance de Ia loi initiale, c'est-à-dire 


i p° - 
M, ES ÿ ri} = —. (2.125) 

i=1 

En vertu de (2.124) et (2.125) on a 
M: {+ > a =. (2.126) 


Ainsi, la moyenne échantillonnée 


8,9 7: (2.127) 
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est une estimation efficace absolument correcte du paramètre Ÿ 
de la loi exponentielle (2.121). 

Notons que la dérivée du logarithme de la fonction de vraisem- 
blance (2.122) 


9 n 
5 In Wa (; ss En|0)=—-++-7 À Ti = 


= 7 (nr — Ÿ) (2.128) 


coïncide exactement avec la représentation (2.46), compte tenu 
de (2.47”). 

Il est facile de voir maintenant que la moyenne échantillonnée 
(2.127) est la solution unique de l’équation de vraisemblance 


Ô 
5 InWa(z, ..., Zn |Ÿ)=0, 
ce qui est en accord avec le résultat général du $ 2.3.1. 


9 
Comme la variable aléatoire 7 zx, est répartie suivant la loi 
h=1 


du 7° à 2r degrés de liberté (cf. $ 1.3.3), la variable +5 ze est 


k=1 
répartie suivant cette même loi. L'estimation d'intervalle [cf. (2.50)] 
du paramètre de la loi exponentielle peut alors être calculée à partir 
de la relation 


P {2n (1e) < FE <2n(1+e1)} = (2.129) 
Pour calculer &, et £° nous allons utiliser (2.51) et (2.51°) en posant 
Yi = y = 7 —+. On a alors 
1: 
1h Xi (2.130) 
Lo 
l— Es == — LEA à (2.131) 


où 43 est le quantile d'une variable aléatoire répartie suivant la 
loi du y* à 2r degrés de liberté. 

2.5.2. Estimations de Bayes du paramètre de la loi exponentielle. 
Supposons que le paramètre Ÿ d’une loi exponentielle soit une va- 
riable aléatoire, répartie également suivant une loi exponentielle 
de paramètre Ÿ, donné, soit : 


Ô 
mn (8)= 7e D, 0>0, d>0. (2.132) 
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Nous commençons par l'estimation de Bayes du paramètre pour 
une fonction de pertes simple, qui est également une estimation 
inconditionnelle correspondant au maximum de densité de pro- 
babilité a posteriori du paramètre estimé. Cette estimation est 
donnée par l'équation (2.69) qui, compte tenu de (2.122) et (2.132), 
est 


1 1 È n 


k=:1 


L'estimation cherchée peut être obtenue à partir de (2.133) 
ÿ — "Vo NES LS —1 9 434 
FT 2 no  n TR ; (2.194) 


Lorsque la taille de l'échantillon augmente indéfiniment 
(n — ),on a 


RADIE (2.134') 


Ainsi, la moyenne arithmétique est asymptotiquement une esti- 
mation de Bayes. Pour un échantillon de taille limitée l'algorithme 
(2.134) donnant l’estimation de Bayes d'après les valeurs échan- 
tillonnées est non linéaire. 

On arrive également à l'estimation du maximum de vraisem- 
blance (2.134) dans le cas où Ÿ, — co, ce qui correspond à peu près 
à une répartition uniforme du paramètre Ÿ. 

Calculons également l'estimation de Bayes pour une fonction 
de pertes quadratique en utilisant (2.87). Comme dans le cas envi- 
sagé on a 


= 
œ 

Less 

se 
Ps 
nr, 
s|e 
œ|= 
M : 
n 

ba 
LE 
mn 


> 
il 
à 


W;(0]|zx, RE D ee . 
1 1 Ÿ 1 
La mer (gs Dax) } 20 
{ 
l'estimation de Bayes cherchée, égale à la moyenne conditionnelle, 
est 
O0 nr 
D ff pe 
far Da)}c 
= Mt 7 (2,435) 


n 
| exp {-(5+5 3 rx) } dû 


( k=1 


M : 


> 
LR 
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ie  dtz-———Kh_,(2a), (2.136) 


an=1 


où K,, (z) est une fonction de Bessel de seconde espèce de l’argu- 
ment imaginaire, en vertu de (2.135)on a 


: 4 n 0 1 
On = Vo V À TR NS (2.137) 


En comparant (2.137) et (2.134) on voit que les estimations de 
Bayes pour des fonctions de pertes simple et quadratique sont essen- 
tiellement différentes, comme on pouvait s’y attendre car la den- 
sité de probabilité conditionnelle (2.132) n'est pas symétrique. 

2.5.3. Estimations conditionnelles des paramètres de la loi normale. 
A titre d'exemple d'estimation simultanée de plusieurs paramètres 
d'une distribution unidimensionnelle nous allons envisager les 
estimations de la moyenne a et de la variance 0° < © de la loi 
normale. La fonction de vraisemblance d’un échantillon de taille 
n dont les éléments sont indépendants est, en vertu de (2. 10). pour 


la loi mentionnée 
n 


Lx (a, 0°) = —— exp | — _ D (ia) | au 
(2x0?) 2 2 i—1{ 
RE [3 Ti — D xi + na° Je (2.138) 
(2n0?) © ii 


En comparant (2.138) et (2.97) on voit que à z; et > x? sont 
1 =1 
des statistiques simultanément suffisantes des paramètres de la 


loi normale. Comme la variance est limitée et vu les relations géné- 
rales (2.23) et (2.25), vraies pour toute loi de distribution, la moyen- 
ne échantillonnée 


Gi gi(ri, ..., an)=+ (2.139) 
11 


e Lé e Ld L LA 4 n 
et la variance échantillonnée multipliée par — 


= pal, an) = —— D (x 0) (2.140) 
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sont les estimations consistantes et absolument correctes respecti- 
vement de la moyenne et de la variance de la loi normale. 

Calculons maintenant les éléments de la matrice information- 
nelle de Fisher. En vertu de (2.98) et compte tenu de (2.138) on 
obtient : 


1% 9 (a, 6)=m, {[5 in. (a, er 
Ô 


i—1 
In (a, o)= 1 (a, o)= mu (e In Li(a, 0%) oz In L(a, 6°)} = 


= M, fes (zi— a) [+ > Gao) || = (0, 


i= 1 h=1 


3f - 


ñn 
1 2 n |? n 
Rs {[ sr > Ga aŸ 5 | } = ar 
k: -1 


La matrice informationnelle est donc 


(2, 2) 2\ — f 0 
la (a, 0*)= m1; {| J0? 


o® 
I = …r (2.141) 
0 204 


Le déterminant de cette matrice est 
n° 
det I — ET > 0, 


et les éléments de la matrice inverse de la inatrice informationnelle 
(2, 2) 204 


«,1 où (2, 2 2 
Ya '=—, Ya A. 4 


n 
y: “A y Dsso 


D'un autre côté, les variances et la covariance des estimations 
(2.139) et (2.140) sont 


M, té) =—, 


du 


Ma{0°}=m; (= AT > (xi— a) —®| = an T 
m{G—a)(6—0} 
= +. m, {Ga DORE — n(a—a) h = (0. 


128 STATISTIQUE DES VARIABLES ALÉATOIRES [CH. 2 


En portant dans (2.99) les expressions obtenues on trouve 
__20t 


u; > 0, 


n (n— 1) 
c'est-à-dire que les estimations (2.139) et (2.140) ne sont pas simul- 
tanément efficaces. L'ellipsoide de corrélation de ces estimations 
qui est donné par a Le 


Te Un Ÿ ENT ET e. 


ne coïncide pas mais M: l’ din informationnel [c£.(2.101)] 


ET Gun | Join Er = 1. 

Calculons maintenant les estimations du maximum de vraisem- 
blance. En portant (2.138) dans (2.105) on obtient le système d’équa- 
tions de vraisemblance 


_ s (zx —a)=0, (2.142) 
; k-=1 
D (mn) = 0. (2.142') 
En vertu de la premiere ns on a 
=— S zh, (2.143) 
hk=1 


c'est-à-dire que l’estimation du maximum de vraisemblance de Ia 
moyenne d’une variable aléatoire normale est égale à la moyenne 
échantillonnée. Notons que l'équation (2.142) ne dépend pas en 
fait du second paramètre 0? de la loi normale. 

En comparant M2 {a} et 14:1) on voit que la moyenne échan- 
tillonnée est une estimation efficace non biaisée de la moyenne 
d'une variable aléatoire normale. 

En portant dans l'équation (2.142”) a au lieu de a on trouve 
l'estimation du maximum de vraisemblance de la variance: 


0° =? S (x — a) = M$. (2.144) 
k==1 
Ainsi, l'estimation du maximum de vraisemblance de la varian- 
ce d'une variable aléatoire normale est égale à la variance echan- 
tillonnée. Cette estimation est consistante et biaisée, le biais de 0° 
étant en vertu de (2.84) égal à 


(== (2.145) 


n 
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La variance de l’estimation (2.144) est 


M, {M3} = + (1 2). (2.146) 


n 


L’infimum de la variance des estimations du paramètre 0° 
d’une variable aléatoire normale est, en vertu de l'inégalité de 
Rao-Cramer, égal à 


= (2.146") 
Il découle de (2.146) et (2.146’) que l'efficacité de l'estimation du 
maximum de vraisemblance de la variance d’une variable aléatoire 
normale est égale à 


= en — 1 = (2.147) 


Ainsi, l'estimation (2.144) n'est pas efficace, mais seulement 
asymptotiquement efficace en vertu des propriétés générales des 
estimations du maximum de vraisemblance mentionnées ci-dessus. 

Notons que si l’on connaît la moyenne a priori, l’estimation du 
maximum de vraisemblance de la variance d’une variable aléatoire 
normale est [cf. (2.142”)] 


= S (zx — a). (2.148) 


R=1 


Cette estimation, comme nous l'avons noté au $ 2.2.3, est absolu- 
ment correcte, sa variance étant 


An 261 j 
M {6}=<— , (2.148) 


ce qui est l'inverse de l'information 17. Ainsi, si l'on connaît 
la moyenne, l'estimation du maximum de vraisemblance de la 
variance d’une variable aléatoire normale est efficace. 

Jusqu'à présent nous avons envisagé des estimations ponctuelles 
(conditionnelles) des paramètres de la loi normale. Examinons main- 
tenant les estimations d'intervalle de ces paramètres. 

Commençons par l’estimation d'intervalle de la moyenne d’une 
variable aléatoire normale, ceci en supposant que le second para- 
mètre 0° soit exactement connu. Pour l'estimation ponctuelle de 
la moyenne prenons la moyenne échantillonnée (2.139). Introdui- 
sons l’erreur normée de l'estimation 

a—a 


E = ——_—____— (2.149) 


= 
n 


9—0682 
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et calculons la probabilité pour que la valeur absolue de cette erreur 
soit inférieure à une valeur donnée e, 


P{lel<ey} =. (2.150) 


À partir de (2.149) on voit immédiatement que l'erreur normée 

de l'estimation de la moyenne est une variable aléatoire normale de 

à moyenne nulle et de variance 

unité. On peut alors écrire (2.150) 
sous la forme suivante 


2F (8) — 1— 7 (2.151) 


ou 
. (2.151) 


ELA 
2 


où F(x) est l'intégrale de La- 


Re place,etz1 » le quantile de la 


conftance loi normale (voir annexe VII). 


Les deux dernières équations 
expriment la relation entre la 
longueur de l'intervalle de con- 
fiance 2e, pour l'erreur normée et 
le coefficient de confiance y. La première est utilisée pour le calcul 
de y si e, est donné, et la seconde, pour le calcul de &, lorsque y 
est donné. Pour le paramètre estimé a, l'intervalle de confiance 
peut être donné par les inégalités suivantes [c£f. (2.149) et (2.150)]: 


eV L<a<ite y. (2.152) 


La relation existant entre a et a est géométriquement représentée 
par deux droites parallèles à la bissectrice de l’angle des coordon- 


Fig. 2.5. Construction d’un intervalle 
de confiance 


nées qui coupent sur l'axe a des portions +e, y = (fig. 2.0). Pour 


trouver les bornes inférieure et supérieure de l’intervalle de con- 
fiance il faut projeter sur l'axe des abscisses les points d'’inter- 
section de ces droites avec la droite a = const. 

Considérons l’estimation d'intervalle de la moyenne d'une 
variable aléatoire normale lorsqu'on ne connaît pas sa variance. 
Utilisons en qualité d'estimations ponctuelles de la moyenne et de 
la variance les estimations non biaisées (2.139) et (2.140). Comme 
dans le cas précédent, on introduit ici l’erreur normée de l'esti- 
mation. La différence consiste en ce que pour la normalisation on 


utilise ici l'estimation o*, la valeur exacte de o° étant inconnue. 
Pour l'erreur normée de l'estimation de la moyenne on prend ainsi 
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la grandeur *) ! 
t= ——— , (2.153) 
V 0 
n 
qui est égale au rapport de deux variables aléatoires indépendantes, 


Pa 2 —1/a 
dont l’une est la variable normale (a — a) (=) is (de moyenne 


n 


1 
nulle et de variance unité) et l’autre la variable aléatoire (S) 13 


répartie comme V = (x ayant n — 1 degrés de liberté). La 
distribution de ce rapport coïncide avec la loi de Student à n —1 
degrés de liberté. Ainsi, la densité de probabilité de l’erreur normée 
s'écrit comme suit: 
n 
1 : (5) 


as 1450 (+) 


n 
2 


(2.154) 


Sn-1 (7) = 


Avec l'augmentation de la taille nr de l'échantillon les deux; pre- 
miers facteurs dans (2.154) tendent vers (2x) '/2, et le dernier vers 


Fig. 2.6. Lois de distribution: 
— normale: — — — de Student pour n = 2 


e"**/2, de telle sorte que la fonction s, (x) pour #7 —+ o tend asymp- 
totiquement vers la densité de l'écart normé de la variable aléatoire 
normale 

x° 


e 2, (2.154) 


1 
Sn (Z) V7 

Ainsi, pour un échantillon de taille importante on peut, même 
si l’on ne connaît pas la variance, utiliser les formules (2.151), 
(2.151”), comme on pouvait s'y attendre ayant en vue la consistan- 
ce de l'estimation 0°. Cependant, pour des z peu importants, la loi 
de Student diffère notablement de la loi normale (fig. 2.6). 


*) On a utilisé la désignation ?, ce qui est de tradition en statistique. 
9s 
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Compte tenu de la symétrie de la loi de Student, la probabilité 
pour que la valeur absolue de l'erreur normée ne soit pas supérieure 
à la grandeur #, est 


ty 


P{lt| <t}=2 | Sn(x)dr =. (2.155) 
0 


Dans l'annexe IX on donne la table des nombres #, satisfaisant 
à la relation (2.155) pour des valeurs de x et y variant dans une 
large gamme. La dernière ligne 
W;(y) de la table correspond à la loi 
normale (nr — co) et la valeur 
t, (et, donc, la longueur de l'in- 
tervalle de confiance) dans cette 
ligne est la plus petite pour tout 
y donné. Un intervalle de confian- 
ce plus large que dans le cas 
précédent (cas où la variance était 
connue) obtenu pour les mêmes 
tailles de l'échantillon et le coef- 
Fig. 2.7. Détermination des limites de  ficient de confiance est le coût 
confiance pour la variance d'une varia-  {’une information incomplète sur 
ble aléatoire normale l . o Ne 

a variance ©* de l'estimation 

de la moyenne a. 
L'intervalle de confiance pour le paramètre estimé est mainte- 
nant donné par les inégalités suivantes [cf. (2.153) et (2.155)]: 


—— 
mn 


AV est, —. (2.156) 


Considérons en conclusion la construction de l'intervalle de 
confiance pour une variance inconnue ©* d'une variable alcatoire. 
Prenons pour l'estimation ponctuelle de la variance l'estimation 
non biaisée (2.140). La variable aléatoire 


nt #5 er (2.157) 
h--1 


0 


est répartie suivant la loi du #? à r7 — 1 degrés de liberté. Prenons 
les grandeurs &,0* et e:0° pour les bornes inférieure et supérieure de 
confiance. La probabilité pour que l'intervalle de confiance avec les 
bornes indiquées contienne le paramètre 0° est égale à 


n — 1 n—1 -» n—1 


P {202 < 0? 'e:0°} = P { D ge D | 
1 
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Les grandeurs &, — — et €: — es sont données par la con- 
dition (fig. 2.7) ‘ ï 
a ® an 1 — 
P{É< = PDA) , (2.159) 
ce qui équivaut à 
M = Xi y XX, v- (2.159) 


Ainsi, l'intervalle de confiance pour la variance d’une variable 
aléatoire normale, correspondant au coefficient de confiance y, est 
déterminé par les inégalités suivantes: 


—1 #0 o — 8 
Ro (2.160) 
X' v X' v 
TZ FAR 


Dans l’annexe VIII on trouvera la table des quantiles #5 de la 
loi du khi carré. 

2.5.4. Méthode des moindres carrés. Supposons que l’on mesure 
une certaine grandeur physique z dépendant d’une autre grandeur 
z, et supposons que l’on connaisse la relation fonctionnelle x — 
= f (2; &, a, . . .) à l'exception de certains paramètres a, Gao, . .. 
Supposons que les résultats des mesures x;, . .., x, soient des va- 
riables aléatoires normales indépendantes, dont les moyennes sont 
(Si @, ds : 0), » Ÿ Gn; di, , . .) et les variances sont 
égales entre elles et égales à 0? (mesures équiprécises, absolument 
correctes). Pour déterminer complètement les relations fonctionnelles 
entre les grandeurs physiques x et z il y a lieu d'utiliser les résultats 
des mesures. La densité de probabilité conjointe des résultats des 
mesures (fonction de vraisemblance) est égale à 


1 
L;(ay, de, ... Dauer: {5 * 


on (22) ? 


X D [Zn — f (Zn; A, de, . à, . (2.161) 
R—1 


Nous allons exiger que les valeurs des paramètres inconnus 
Gi; Gr, . . ., pour des résultats des mesures donnés, maximisent la 
fonction (2.161), ce qui équivaut à la condition de minimum de la 
grandeur 

n 


À Leu Gn; au a JP 


cette condition étant utilisée dans la méthode classique des moin- 
dres carrés. 
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Les valeurs des paramètres a, a2, ... sont données par le 
système d'équations 


n 
Ô 5 gs En, ... . 
D Lrn— fn; @, ae, ...)} URI) Lo, j 24,2, 
k=1 ; 
(2.162) 
Si la relation existant entre les grandeurs physiques zx et z est liné- 
aire, c'est-à-dire si 
Z = 2 + Go, . (2.163) 
on a 
of (zR ; ai, >) _— 


9] (z ; s 2 ’ 
à 2, “GR; os a) 4 (2.163') 


da: 


et le système d'équations (2.162) s'écrit alors comme suit: 


n 
D (Th — 2h — Ge) 5h = 0. 
k=1 


n 
D (th — ain — de) = 0. 
k=1 


Il en découle 


a = mf {x} — a (2), (2.164) 
a, = mi Let (2) | (2.164’) 


où mi {x}, mf {xz} sont les moyennes échantillonnées des va- 
riables aléatoires x et xz et 


n nr 
=D, (=>. 


i= 1 î 


— 


Ainsi, la méthode des moindres carrés donne la relation linéaire 
suivante entre les grandeurs physiques x et z d’après les données 
des mesures : 

mŸ {zz}— mi {x} (2) 


(22) — (2)° 


ne G—() (2.165) 


La formule (2.165) est l'équation empirique de la droite de la régres- 
sion quadratique moyenne Î[cf. (4) dans l'annexe XII. 

2.5.5. Estimations de Bayes des paramètres de la loi normale. 
Nous allons commencer par le cas où la variance 6* de la loi normale 
est connue exactement, et la moyenne est une variable aléatoire 
normale de paramètres (a,, ©), c'est-à-dire 


1 D q2 


l; SE nee 7 


(2.166) 
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Calculons l'estimation correspondant au maximum de densité 
de probabilité a posteriori du paramètre estimé a laquelle en vertu 
de (2.84) est un cas particulier de l’estimation de Bayes pour une 
fonction de pertes simple. A partir de (2.69) on obtient l'équation 
donnant l'estimation cherchée 


_ ji. 
Æ LATE D (z—a)=0. 


h=1 


n 

= { 1 ap9° 

= — 7x (5 Dant n0E ]- (2.167) 
LT k=1 

L'estimation (2.167) est la moyenne pondérée des deux gran- 

deurs suivantes: de l’estimation du maximum de vraisemblance 


rt 


. > x, et de la moyenne a priori a, du paramètre estimé, le rapport 


k=-1 
du poids attribué à la seconde grandeur à celui de la première étant 


’ s OC « s : . é 
égal à me c'est-à-dire au rapport de la variance de l’estimation du 
0 

maximum de vraisemblance à la variance a priori. 

La densité de probabilité a posteriori du paramètre a pour un 
échantillon donné est 

1/2 
) x 


W,(al|z, me" (14 


x exp {x (1 +) X 


An D 


PTE 


o? 
noë 


Pour r —o la densité de probabilité (2.168) tend vers la fonc- 


tion delta Ô (a _— > za). Pour un nr donné et (2) — O0 
k=1 


les paramètres de la fonction (2.168) tendent vers (25 Th —) 


4 


et pour — > 0% (2.168) devient (2.166). 


On voit également que le second membre de (2.167) coincide 
exactement avec la moyenne conditionnelle du paramètre estimé, 
c'est-à-dire avec la grandeur m, {a | x, . .., x,}. Par conséquent, 
(2.167) est également une estimation de Bayes pour une fonction de 
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pertes quadratique, ce qui correspond au résultat général mentionné 
au $ 2.3.6 (car la distribution (2.166) est symétrique par rapport à 
son mode unique a = &). Le $ 2.3.8 permet de conclure que l’esti- 
mation en question est une estimation de Bayes pour une fonction 
de pertes symétrique. 

Notons que l’on a 


a Î d 
a — D Th; (2.169) 


pour 
ED —. (2.169) 


La condition (2.169°) se trouve remplie si pour (>) donné, la 
0 


taille r de l’échantillon augmente indéfiniment ou si pour #7 donné 
on a 05 > 0°. La première condition signifie que l’estimation de 
Bayes (2.167) pour #7 —+ tend asymptotiquement vers l'estimation 
du maximum de vraisemblance. La seconde condition peut être 
interprétée comme suit : la densité de probabilité w, (a) du paramètre 
inconnu est à peu près uniforme lorsqu'on la compare à la densité 
de probabilité initiale w, (x; a). Par conséquent, l'estimation (2.167) 
pour 6% © 0° devient l’estimation du maximum de vraisemblance, 
ce qui a déjà été noté sous une forme générale à la fin du $ 2.3.3. 

Notons que dans le cas inverse, lorsque la variance 0* de la distri- 
bution initiale 0° est très supérieure à 20°, on obtient à partir de 
(2.167) la relation asymptotique suivante 


a Go) 


ce qui veut dire que les valeurs échantillonnées n'influent pas sur 
l'estimation, qui est prise égale à la moyenne du paramètre estimé. 

Calculons maintenant la valeur du risque moyen pour une fonc- 
tion de pertes quadratique. En portant (2.167) et (2.168) dans (2.79) 
on obtient 


J (lz, same) 5e (1+ TE "x 


nn. o? o? | 
on (1 7 noë ] ' 
ce qui signifie que la fonctionnelle en question est une grandeur 
constante. Puis on tire de (2.78) 


= (14) (2.170) 


nOË 


Le maximum du risque moyen correspond au cas où 69 —> ©, par) 
conséquent la distribution uniforme (dans le sens mentionné ci-dessus 
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du paramètre a est la moins favorable et 
o2 
n 


Rmas = (2.171) 

Pour cette distribution, on peut trouver la fonction de risque en 
portant (2.169) dans (2.76) et compte tenu de l'indépendance des 
variables zx; et x; pour ik, on a 


ñn O0 C0 
1 0? 


r(a)=+ Y | — | (æx— a) L (a) xs .… dn=-. (2.172) 


R—1 —00 —œo 


En vertu de (2.172) la fonction de risque ne dépend pas du paramètre 
estimé et sa valeur coïncide avec le maximum du risque moyen. 

Ainsi, la moyenne échantillonnée est en même temps l'estimation 
du minimazx de la moyenne d'une variable aléatoire normale lorsque 
l’on connaît exactement sa variance et que l’on sait que la fonction 
de pertes est quadratique. 

Soit maintenant l'estimation de Bayes de la variance o* de la loi 
normale, la moyenne «a étant donnée (posons a = 0). Supposons que 
la densité de probabilité a priori de la variance soit exponentielle de 
paramètre 0 


20°: 
wy (d*)= € cg. (2.173) 


Nous allons trouver l’estimation correspondant au maximum de den- 
sité de probabilité a posteriori du paramètre estimé 0°. En utili- 
sant (2.69) on obtient 


n 
n 1 2 1 
— 50e +50 Di 5 = 0, 


i=1 
CRE nOS S 2 Zi à Le 
6= 1+— 5 (+) —1|. (2.174) 
i=1 
Pour 20° —> co on a en vertu de (2.174) 
à 1 5 : L 
G— — St. (2.175) 
i=1{ 


Ainsi, lorsque la taille de l’échantillon augmente indéfiniment ou 
encore pour #7 donné, au fur et à mesure que la fonction (2.173) tend 
vers la distribution uniforme, l'estimation de la variance correspon- 
dant au maximum de densité a posteriori tend asymptotiquement 
vers la variance échantillonnée, c’est-à-dire vers l'estimation du 
maximum de vraisemblance. 
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Pour'une fonction de pertes quadratique l'estimation de Bayes 
est [cf. (2.87)] 


= m{0°| 2x1, .., n} = 


7t 


ee Ka 22 Le | 
5 = 0° +2 (&)° x ST DT (2.177) 
1=1 Ka. V 2Y gL | 
2 i-=1 


Comme dans le cas de l'estimation du paramètre d’une loi expo- 
nentielle, l’asymétrie de la densité de probabilité a posteriori de la 
variance fait que l’estimation de Bayes (2.177) pour une fonction de 
pertes quadratique diffère de l'estimation de Bayes (2.174) 
correspondant à une fonction de pertes simple. 


2.6. ESTIMATION D'UNE DISTRIBUTION UNIDIMENSIONNELLE 


2.6.1. Critère de conformité. Dans les paragraphes précédents 
nous avons étudié les méthodes d'estimation des paramètres inconnus 
de la distribution d’une variable aléatoire, supposant connue la loi 
de distribution. Souvent, a priori, on ne sait absolument rien sur la 
forme de la loi en question et il faut, connaissant des valeurs échan- 
tillonnées, trouver la forme de la distribution d'où l’échantillon a 
été extrait. 

En principe, le théorème de Glivenko (cf. $ 2.1.1) permet de 
résoudre le problème. En vertu de ce théorème la fonction de répar- 
tition empirique F? (x) converge en probabilité vers la fonction hy- 
pothétique F, (x) si l’échantillon ayant servi à trouver la fonction 
empirique est issu de F, (x). Mais ce théorème, établissant la tendan- 
ce asymptotique de FT? (x) vers F, (x) pour nr —> co, ne permet pas, 
pour un échantillon de taille n finie, de trouver les probabilites 
d’écarts entre la répartition empirique et la répartition hypothéti- 
que. Dans ce cas, il y a lieu avant tout d'introduire une mesure quan- 
titative de conformité de la répartition hypothétique et de la répar- 
tition empirique ou, selon la terminologie usitée, le critère de confor- 


2.6] ESTIMATION D'UNE DISTRIBUTION UNIDIMENSIONNELLE 139 


mité. Ce critère est le nombre A (F*, F,) qui est une fonctionnelle 
des répartitions empirique F? (x) et hypothétique F, (x). 

Ce problème peut être résolu de la manière suivante. A partir des 
valeurs échantillonnées z,, . .., zx, on trouve à l’aide de la formu- 
le (2.1) la fonction de répartition empirique F? (x). À partir de cette 
répartition et peut-être à la base de certaines autres considérations, 
on émet l'hypothèse que l'échantillon provient de la répartition 
F, (x). Selon le critère de conformité adopté à l’avance, il y a lieu 
de calculer À (7%, F;,) ainsi que la probabilité pour cette grandeur 
de dépasser un certain seuil À,. A cet effet, il faut connaître la répar- 
tition À (F?, F;). En général, on arrive à trouver cette répartition 
sous une forme assez simple seulement pour des échantillons de taille 
suffisamment grande (plus exactement on arrive à trouver la répar- 
tition asymptotique pour 7 —+ œ). Connaissant la répartition de la 
grandeur À (F?, F;), on peut, s'étant donné la probabilité & (niveau 
de signification du critère) d’avoir À > À,, trouver le seuil A,. 
Pour « suffisamment petit, on obtient une règle assez bonne de véri- 
fication de l'hypothèse sur la répartition F, (x): si pour l’échantillon 
extrait on a À > À,, l'hypothèse est rejetée, dans le cas contraire 
elle est adoptée. La probabilité de rejeter une hypothèse vraie sera 
alors égale au niveau de signification (voir chapitre 1, page 24). 

Notons que la répartition de la grandeur À (F3, F;) déterminée à 
partir de la condition que l'échantillon z,, . .., zx, ayant servi à 
trouver F? (x) a été extrait de Fi; (x), dépend en général de F, (x). 
Il serait souhaitable d’avoir des critères de conformité dont la répar- 
tition ne dépendrait pas de la forme de la fonction hypothétique 
F, (x). De tels critères sont appelés non paramétriques (cf. $ 1.5.3). 
Les cas particuliers des critères de conformité étudiés ci-dessous sont 
asymptotiquement (pour z —> co) non paramétriques. 

Il ne faut pas oublier non plus que le critère de conformité, choisi 
à partir de certaines considérations, permet de formuler, pour un 
niveau de signification & suffisamment bas, une règle acceptable de 
rejet d'une hypothèse fausse. L'hypothèse vraie se trouvera rejetée 
avec une fréquence égale à &. Cependant, dans ce cas la fréquence 
des erreurs dues à l'adoption d’une hypothèse fausse reste indéter- 
minée. Si pour l'échantillon donné on a A << AÀ,, bien que la règle 
adoptée impose d'accepter l'hypothèse avancée, il y a lieu de faire 
attention. En effet, la condition À << A, veut dire simplement qu'au 
point de vue du critère de conformité adopté, il n’y a aucune raison 
de considérer que les valeurs échantillonnées ne soient pas conformes 
à la répartition hypothétique. 

L'inconvénient des critères de conformité est que le critère lui- 
même et le niveau de signification sont arbitraires, de plus il est 
assez difficile de trouver leurs répartitions pour des échantillons de 
taille finie. Une autre méthode consiste à trouver directement les 
estimations de la fonction de répartition inconnue d'après des va- 
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leurs échantillonnées, sans émettre d’hypothèse concernant la forme 
de cette fonction (fonction de répartition empirique uniformisée). 
2.6.2. Critère du khi carré. Ce critère de conformité est l’un 
des plus répandus dans les applications. 
Divisons le domaine de définition de la fonction de répartition 
hypothétique F, (x) de la variable aléatoire £ en un nombre fini d’in- 
tervalles disjoints AÀ,, à = 1, ..., L. Introduisons la notation 


l 

pi= P{£E A;}, 2 pi = 4. (2.178) 
Supposons que dans l'échantillon zx;, . .., x,, le nombre d'éléments 
tombés dans l'intervalle À; soit égal à v;. Il est évident que l'on a 
l 
S Vi = N. 


1 
Prenons pour le critère de conformité la grandeur suivante: 


l 
2 1 a 
A= D (pi) 2... (vi— np). (2.179) 


Ainsi que l’a montré Pearson (cf. [5], $ 30.1), si l'hypothèse sur 
l'authenticité de la répartition F (x) est vraie, pour ñn —+ o la répar- 
tition du critère (2.179) tend asymptotiquement vers la loi du y? 
à | — 1 degrés de liberté et ne dépend pas de la forme de la répartition 
hypothétique F\ (x). 

Soit y le quantile de la variable aléatoire répartie suivant la loi 
du x? à L — 1 degrés de liberté, c'est-à-dire P {4° > y£} = a (voir 
annexe VIII). Lorsque «& est suffisamment petit et la taille de l’échan- 
tillon est suffisamment grande, la grandeur À calculée à l’aide 
de (2.179) ne surpasse pratiquement jamais le seuil #, à condition 
toutefois que l'hypothèse concernant la forme de la répartition de 
laquelle l'échantillon a été extrait soit vraie. On adopte ainsi la règle 
suivante de vérification de l'hypothèse: l'hypothèse est rejetée si 
A >> y et adoptée si À < #5. La probabilité de rejeter une hypothè- 
se vraie est égale à &. 

En plus des défauts généraux mentionnés plus haut, inhérents à 
tous les critères de conformité, le critère du y? présente l’inconvé- 
nient d'une partition arbitraire du domaine des valeurs possibles de 
la variable aléatoire en intervalles A;, n'étant pas dictée ni par la 
forme de la fonction F, (x), ni par un groupement adéquat des élé- 
ments. 

2.6.3. Critère de Kolmogorov. En vertu de ce critère, la mesure 
quantitative de conformité, pour un échantillon de taille r donnée, 
est le maximum pour toutes les valeurs z du module de l’écart de la 
répartition empirique par rapport à la répartition hypothétique, 
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c'est-à-dire | 
A = max | Fi (x) — F, (x) |. (2.180) 


A. Kolmogorov a montré que (cf. [4], $ 62) si l'hypothèse sur l'au- 
thenticité de F, (x) se trouve vérifiée, pour ñ—+ et, de plus, pour 


F, (x) continue, la fonction de répartition de la grandeur AV r tend 
asymptotiquement vers *) 


C0 


PAVR<:}-Kk()= 2 (—1}*e-2#%, 20. (2.181) 


— — 
= 0 


La fonction k (z) peut s’écrire comme suit : 


k(z)—=1—2 D (—1te-2#, 250. (2.182) 
k=1 


D'un autre côté, en écrivant k (z) sous la forme 


00 


00 
k()= 2 e-2(2h)2:2 0 Ÿ e-2(2h+1)2:2 


= — 00 R= — 00 

et en utilisant la formule de sommation de Poisson 

SD AG)= D | h (x) e?xih dx, 

R=—— 0 R==—00 — 00 
on peut écrire cette fonction comme suit : 

— ©  _n%(2h-1)2 
k (= V2 > e Dre (2.183) 
k=! 

Il est commode d'utiliser la formule (2.182) pour z > 1, et la for: 


mule (2.183) pour z € 1. 
Soit « un niveau de signification donné, il vient de (2.182) 


P{A>Ac}=P{AVn>AaVn}-1—k(A Vn)= 


= 25 (— 1e "ag (2.184) 


ou sous une autre forme, compte tenu de (2.183), 
VX 00 _ A(2k—1)2 
PT EU à, SnA° es 
P{A> Ac} AV: e œ œ. (2.185) 


*) La fonction de répartition envisagée peut s’écrire comme suit [12]: 


O0 


P{AVr<:) Ne -* it [1— Te +0 (+) É 
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La série dans (2.184) étant rapidement convergente, pour première 
approximation on peut souvent se limiter au premier terme, c’est-à- 
dire 


2e "8% = (2.186) 
ou 
4 2 ” 
Aa =} 5. ln —. (2.186") 


On obtient la règle suivante de vérification de l'hypothèse : si 
pour l'échantillon observé on a A > AÀ,, l'hypothèse selon laquelle 
l'échantillon provient de la répartition hypothétique est rejetée, 
dans le cas contraire on adopte cette hypothèse. La table des valeurs. 
de la fonction k (z) est donnée dans [4]. Tout comme le critère du 
X*, le critère de Kolmogorov est utilisé lorsque l'échantillon est de 
taille importante. Cependant, pour ce critère on n’a pas besoin de 
procéder à une partition préalable de l'intervalle des valeurs ni à un 
groupement des éléments, comme c'était nécessaire dans le cas du 
critère du %°. 

Notons que pour un niveau de signification donné, la fonction 
de répartition hypothétique se tient à l’intérieur d’une bande dont 
les limites sont données par les équations 


y = Fi (x) + À 
y = Fi (x) — À. 


2.6.4. Critère de Mises. En vertu de ce critère, la mesure 
quantitative de conformité, pour un échantillon de taille z donnée, 
est la valeur moyenne du carré de l'écart de la répartition empirique 
par rapport à la répartition hypothétique, soit: 


et 


A= À (Fi (z)— Fi (au(x) d2, (2.187) 


iciw, (x) = F, (x) est la densité de probabilité hypothétique de la 
variable aléatoire. En portant (2.1) dans (2.187) et en intégrant on 
obtient la grandeur A sous la forme suivante *): 


D 2k—1 12 , 
Arte D [a]. (2.187') 
R=—1 
Il est facile de voir [3] que 
1 | an —3 
mAlj=—, MfA= (2.188) 


*) Souvent dans ce cas, au lieu de A on utilise la désignation w° et op 
appelle le critière de conformité critère w*°. 
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L'expression de la répartition exacte de la grandeur nA est très com- 
pliquée, mais pour x > 40 elle est voisine d’une certaine répartition 
limite. A la différence du critère du %°, le critère de Mises, comme le: 
critère de Kolmogorov, n’exige pas de groupement des éléments de 
l'échantillon et sa répartition se rapproche assez vite, avec augmen- 
tation de la taille de l’échantillon, d'une répartition limite. Ci-des- 
sous on trouve quelques quantiles de cette répartition limite : 


ns | 0,4 | 0,3 | 0,2 | 0 4 | 0 
_ 0,1184 | 0,1467 0,1843 0,2412 0,3473 se 0,4614 
r | 0 s | o 2 | 0,01 | 0,00! | | 
| 0,5489 0,6198 0,7435 1,1679 


2.6.5. Appartenance de deux échantillons à une même répartition. 
Supposons que l’on ait deux échantillons (x,, ..., x,) et (y, . .. 

.; Ym) à éléments indépendants, appartenant chacun à une répar- 
tition quelconque. Il est intéressant de vérifier l'hypothèse selon 
laquelle les deux échantillons appartiennent à une même répartition. 
Soient F*, (2) et F,ÿ (z) les fonctions de répartition empiriques cons- 
truites d’ après ces ‘échantillons. On prend la grandeur 


À — nes | es (z) = Fy (2) | (2.189) 


en qualité de critère de conformité. Comme l’a montré N. Smirnov 
(cf. [4], $ 63), pour r —+ æ on a 


p {a(5++) 


où k (z) est une fonction donnée par (2.182). 
Si & est un niveau de signification donné. d’une manière analo- 
gue à (2.186’) on peut en première approximation calculer le seuil 


A Vi ÿy ne (2.190') 

7 nm 2 œ du | 

et formuler la règle suivante de vérification de l'hypothèse: les 
échantillons appartiennent à une même répartition si À < À,. 

Un autre critère, proposé par Wilcoxon, tient compte du nombre 


d’inversions. À cet effet on compose à partir des deux échantillons 
un échantillon ordonné (voir $ 2.1.1) 


Ur YUos Tis Ur Los . . 


1 
142; 


>3} AK (), (2.190) 


144 STATISTIQUE DES VARIABLES ALÉATOIRES (CH. 2 


Si dans cette suite à un x; donné précèdent s éléments y, . .., ys 
de l’autre échantillon on a s inversions. Le nombre total d’inversions 
U est égal à la somme des inversions formées par tous les éléments 
du premier échantillon avec les éléments du second. La règle de 
vérification d'une hypothèse suivant le critère de Wilcoxon consis- 
te à comparer le nombre total d’inversions avec le seuil déterminé 
par le niveau de signification donné. 

On peut montrer (cf. {2], page 357) que pour m + n > 20 et 
m > 3 on peut considérer, sans commettre de grande erreur, que le 
nombre total d’inversions est une variable normale de paramètres 


m{U}= +, M{0}= (m+n+1). (2.191) 


La: valeur de seuil U, du nombre d'inversions, pour un niveau de 
signification &« donné, se trouve comme suit 


Ur, WE (m+r+t), (2.192) 


où z, est le quantile d’une variable aléatoire normale. Si la valeur 
de U calculée d’après les deux échantillons donnés est supérieure 
à U,,, on rejette l'hypothèse selon laquelle ces échantillons appar- 
tiennent à une même répartition. 

On peut également utiliser la variante à deux seuils du critère 
de Wilcoxon où le domaine critique des valeurs de U dans lequel 
on rejette l'hypothèse formulée ci-dessus est donné par les deux 
seuils : 


Vaio = za V Le (m m+n+1), (2.193) 
2 
ann = F5 + a eV Æm+n+t1). (2.193') 
2.6.6. Estimation d’une densité de probabilité. Soit xz;, . .., Zn 


un échantillon à éléments indépendants, extrait d’une distribution 
inconnue de densité de probabilité w, (x). Pour estimer cette densité 
on peut utiliser la fonction suivante (fig. 2.8): 


T—T; 
D, (x) = TS DE ET |: (2.194) 


où À (y) est un noyau done d approximation satisfaisant aux 
conditions 


CO 


O<K(y)<oo, lim yK(y)=0, | K(y)dy=1, (2.194) 
V— +o ne 


et 
lim k (7) = 0. (2.194) 


n—+00 
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Il a été démontré (cf. [15], [17]) que l'estimation (2.194) est consistan- 
te et asymptotiquement non biaisée. Le choix de la forme du noyau 
K (y) peut être astreint à 
certaines conditions sup- 
plémentaires d’optimali- 
té de l'estimation. Dans 
certains cas il est bon de 
prendre un noyau gaus- 
sien 


KW=- 0 


Si l’on connaît la for- | | 
me de la fonction w, (x), Fig. 2.8. Construction de l'estimation d'une 


: à fonction densité de probabilité 
mails on ne connait pas 


ses paramètres, pour l'estimation de cette densité de probabilité 


on peut prendre la fonction w, (r) dont les paramètres sont des esti- 
mations des paramètres inconnus obtenues à partir des valeurs échan- 
tillonnées. Par exemple, pour estimer une densité normale de para- 
mètres inconnus, on peut utiliser la fonction 
; = (x—a« 
D; (rx) = ——— 6 20° (2.195) 
V 2n0: 
où a, 6? sont les estimations déterminées respectivement par (2.139) 
et (2.140). 


2.7. ESTIMATION DES PARAMËÊTRES DES DISTRIBUTIONS 
MU LTIDIMENSIONNELLES 


2.7.1. Généralisation des définitions fondamentales au cas des 
distributions multidimensionnelles. Tout ce qui à été exposé 
ci-dessus concerne la théorie des estimations d’une seule variable 
aléatoire. Les estimations des distributions multidimensionnelles 
ou de leurs paramètres pour un ensemble de variables aléatoires 
dépendantes Ë,, . .., & présentent également un grand intérêt pra- 
tique. Dans la théorie paramétrique on connaît la forme de la fonc- 
tion de répartition multidimensionnelle de cet ensemble et l'on esti- 
me seulement les paramètres inconnus, tandis que dans la théorie 
non paramétrique c'est la fonction de répartition elle-même qui est 
estimée. Dans les deux cas les déductions statistiques sont faites à 
partir d’un échantillon provenant d’une distribution multidimen- 
sionnelle. L'élément d’un tel échantillon (de taille 7) n'est pas un 
nombre comme dans le cas unidimensionnel, mais V nombres, soit 

Tihs Loks + e 9 LNR) k — 4, e . + D. 
Autrement dit, on peut représenter un élément d’un échantillon d'une 
distribution multidimensionnelle par un vecteur x; ayant pour com- 


10—0682 
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posantes les nombres ci-dessus, et tout l'échantillon, par une matrice 
rectangulaire NX n 
X = [Ii |]. 


La fonction de vraisemblance de l'échantillon d’une distribution 
à N dimensions est une fonction de nr arguments vectoriels, les para- 
mètres de cette fonction étant des matrices (des vecteurs en particu- 
lier) dont les éléments sont les paramètres inconnus de la distribu- 
tion multidimensionnelle d’un ensemble de variables aléatoires. Pour 
les éléments indépendants d’un échantillon multidimensionnel on a 


Le (= IT Wii (tin, ce, Tnhs Vs, Ùm), (2.196) 


où W, est la densité de probabilité de l’ensemble des variables aléa- 
toires E,, .. 

À partir de l’ échantillon X on trouve s matrices échantillonnées 
(ou s vecteurs) dépendant des vecteurs échantillonnés x, ..., x,: 


Mi=g(x -.., Xnh = 1, ...,5, (2.197) 


en supposant que les paramètres de la densité W,, soient donnés. 
Ces matrices (vecteurs) échantillonnées sont des estimations condi- 
tionnelles des matrices M; (vecteurs) dont les éléments sont les para- 
mètres inconnus Vi, + +» me 

Si les paramètres de la distribution sont aléatoires et si l’on con- 
naît leur distribution conjointe a priori, on peut calculer des estima- 
tions inconditionnelles. 

Chacune des estimations conditionnelles M, [cf. (2.197)] est dite 
consistante si pour r7 — œ elle converge en probabilité vers M.. 


L'estimation M; est dite non biaisée si pour ?2 quelconque sa valeur 
moyenne sur l’ensemble des échantillons vectoriels est égale à M. 
Il ne faut pas oublier que l’on entend par valeur moyenne d’une 
matrice (d’un vecteur) aléatoire la matrice (le vecteur) dont les élé- 
ments sont égaux aux valeurs moyennes des éléments d’une matrice 
(d’un vecteur) aléatoire. D'une manière analogue on peut générali- 
ser la notion d’estimations simultanément suffisantes. A cet effet les 
arguments sCalaires dans (2.97) sont remplacés par des arguments 
vectoriels. La matrice informationnelle de Fisher I, est une matrice 
partitionnée dont les éléments sont les matrices 


(Ms, M)=m {fin Lx (M) in Lx (M)}, (2.198) 


L, j=1, 


Les estimations au maximum de vraisemblance peuvent être 
obtenues à partir du système d'équations 


0 In ZX (M) . 
—#ûù 0, 11... 5 (2.199) 
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De même les estimations correspondant au maximum de densité 
de probabilité a posteriori des paramètres estimés sont données par 


9nw, (Mi, .…, M) , lnLx(M) ; 

2.7.2. Estimations du vecteur des valeurs moyennes et de la matri- 

ce de corrélation d’une distribution normale multidimensionnelle. 
Avant d'introduire les estimations de Bayes des paramètres d'une 
distribution multidimensionnelle nous allons illustrer les générali- 
sations mentionnées ci-dessus sur l'exemple d’une distribution nor- 
male à V dimensions. Ecrivons la densité de probabilité de cette 


distribution sous la forme vectorielle (cf. (2.57), tome I): 
. 1 dr 
W, XD) = — 5 —0xp| — 5 (x — a”)M 1(x— 2) | 


(1) ? Vdæt M 
(2.200) 


où a est le vecteur des valeurs moyennes, M la matrice de corréla- 
tion. 

Soient x, ..., x, des vecteurs échantillonnés indépendants à NV 
dimensions issus de la distribution normale considérée. La fonction 
de vraisemblance (2.196) de l'échantillon est égale à 


Lx(a, M) =[w, (x; a, M)— 


n 
= — exp [—+ ÿ (xx — a)’ M1 (xx — a) |- 
(2x) ? (det M) ° dE 

(2.201} 

Introduisons le vecteur des moyennes échantillonnées 

n n 
mi=— > Xk (2.202) 
h=1 
et la matrice de corrélation échantillonnée 

M°= 2 9 (xx m)(xu— mi)’. (2.203) 


h=1 
On peut montrer que (cf., par exempie, [1], $ 3.2) 


D (xn—a) M (xx—a)= tr (rM-M*)+ 7 (mi— a) M1 (mi— a). 


ki=1 


(2.204) 
où le symbole tr désigne la trace de la matrice *). 
*) On appelle trace de la matrice carrée A = || a;; || la somme de ses élé- 


ments diagonaux: tr A= Y'a. Parfois on utilise la notation sp A. 
î 


10% 


148 STATISTIQUE DES VARIABLES ALÉATOIRES (CH. 2 
nn 


En portant (2.204) dans (2.201) on peut écrire comme suit la fonc- 
tion de vraisemblance : 
Lx (a, M) — a exp | + n (mi— a) M1 (mi— a) | X 
(2x) ? (det M) °? 


X exp | —+ tr (M-1M*) |. (2.205) 


En vertu de (2.205) m° et M* sont des estimations simultanément 
suffisantes du vecteur des valeurs moyennes et de la matrice de cor- 
rélation d’une distribution normale multidimensionnelle. Ces mêmes 
estimations sont les estimations du maximum de vraisemblance. 
L'’estimation a — m°’ est absolument correcte et efficace. L'’esti- 
mation M* est biaisée, en effet 


ms {M*}= (1— +) M. (2.206) 


C'est pourquoi pour l'estimation absolument correcte de la matrice 
de corrélation M on a 


ZT  n 4 
M— n — 1 M" — n — 1 


D (xx—mi)(xx— mi). (2.207) 


h=—1 


L'efficacité des estimations a et M (c'est-à-dire le rapport des volu- 
mes de l’ellipsoïde informationnel et de l’ellipsoïde de corrélation) 


est égale à (=) CE. 


5 
2.7.3. Estimations de Bayes des paramètres d’une distribution 
normale multidimensionnelle. Nous allons généraliser (2.109). 
À cet effet introduisons la fonction de pertes pour l'estimation des 
matrices d’une distribution multidimensionnelle, soit: 


Il = I (M, ..., M, M, ..., M). (2.208) 
Les estimations conditionnelles de Bayes minimisent la fonction 
de risque conditionnelle 


r (Mi, M3 ns. 


A 


| I (M, …. M, M, 0 M) X 
T7 x Lx(M)dri...den, (2.209) 


Dans le cas où les paramètres estimés M,, . .., M, sont aléatoires, 
en introduisant leur densité de probabilité a priori w, (M, ..., M.) 
on peut écrire comme suit la valeur du risque moyen: 

oO CO 


R=— | . | is (M, -., Ms)r (M, Ms) dMi.. .dM. (2.210) 
Les estimations inconditionnelles de Bayes peuvent être obtenues 
en minimisant la fonctionnelle matricielle (vectorielle) (2.210). 
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2.7.4. Remarque concernant les estimations d'une distribution 
multidimensionnelle. Dans le cas des distributions multidimension- 
ue les critères de conformité n’ont pas fait l’objet d’études spé- 
ciales. 

La formule (2.194) peut être étendue tout naturellement au cas 
multidimensionnel pour estimer une densité de probabilité inconnue 
Wx (CTE EE | Zn). | 

Soient x;, . .., x, les vecteurs des valeurs échantillonnées appar- 
tenant à la distribution mentionnée, et zx, . . ., zyx les composan- 
tes du k-ième vecteur. Si pour k = !, x, et x, sont indépendants, 
l'estimation de W, peut être donnée par la fonction 


n ON 
Per msD role) 2249 
1— 


kj(n) J° 


où Æ ; (y) est le noyau de l’approximation satisfaisant aux conditions 
suivantes (j = 1, ..., 


O<K;(y) <o, lim yK;(y) =0, 
V — + 00 


| Ky(y)dy=1, limh;(n)=0. (2.211°) 


L’estimation (2.211) est consistante et asymptotiquement correcte. 


Problèmes 


2.1. Montrer que la moyenne et la variance échantillonées d'une variable 
aléatoire normale sont indépendantes. Généraliser ce résultat au cas d'une 
distribution normale multidimensionnelle et montrer que le vecteur des moyennes 
échantillonnées ne dépend pas de la matrice des variances-covariances échan- 
tillonnee. 

2.2. Montrer que pour un coefficient de confiance y donné, l'intervalle 
de confiance minimal pour une variance inconnue d'une variable aléatoire 
normale doit satisfaire à la condition (fig. 2.9) 


W, (y) 


Fig. 2.9. Détermination de l'intervalle de 
confiance minimal 
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WW) >e, (1) 


où W, (y) est la densité de probabilité de la loi du #? à nr — 1 degrés de liberté 
[cf. (2.157)], et la constante c est donnée par la condition 


Wa (y) du =, (2) 


€1 


où e, et e2 sont les projections sur l'axe des abscisses des points d’intersection 
de la courbe : — W, (y) et de la droite z = c [cf. (2.158)]. 

2.3. Supposons que l’on effectue À groupes d’ observations indépendantes, 
dont le résultat est À échantillons de tailles r4, . . ., n} prélevés sur des répar- 
titions continues Fi (x), i = 1, k (cf. [14]). On vérifie l'hypothèse selon 
laquelle F;; (x) = Fi (x) pour tous les i, ayant choisi pour critère de conformité 

grandeur 


1 

A= = 2 
Lex [> ma {Ft (x) — F8 (77, (3) 

où 
k 
D uFi (x) 
F = = —— ; (4) 
ni 
i=1 


Ffi(x) est la fonction de répartition empirique construite d’après l'i-ième 
échantillon. Montrer que pour r1, . .., r —> © on a 


PAK 2} — ke (2) = Ÿ x 


r (ii Le © 


R—3 


ps bi 
«3 mor LE]. z22>0, (5) 


où u, est le s-ième zéro positif de la fonction de Bessel J,_; (2). Vérifier que 
2 
pour k—20on a 


8z? 


VA < re (2s—1}° 7 
k()=k (= exp] ET], :>0. (6) 
s=1 
2.4. Soit m le nombre de réalisations d'un événement lors de » essais 
indépendants, pour chacun desquels la probabilité de cet événement est égale 


à p. En utilisant l'inégalité de Tchébychev montrer que pour un & > 0 quel- 
conque on a 


var {fe <e}=s o 
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2.5. Supposons qu’il y a lieu d'estimer une fonction linéaire de para- 
mètres inconnus a}, À = 1, ..., m, de la forme 


mn 


a= Ÿ gnax (8) 


Rk=1 


(g, sont des grandeurs connues) d’après les échantillons de X variables aléatoires 
Zi, - -., zN dont les moyennes sont 


m 
mfzi}= Ÿ finan, ii, N, (9) 
k= 


et les variances sont limitées (elles sont connucs à une constante pres, c’est-à-dire 


Ce E2 
M: {1} = "A 


Montrer qu’une estimation de la forme 


où o° est inconnu, et À; connus) (cf. [7]). 


mi 
a= Ÿ gnah, (10) 
= | 


où a, est l'estimation du paramètre a, obtenue par la méthode des moindres 
carrés (voir $ 2.5.4), dans la classe des estimations linéaires non biaisées, a une 
variance minimale (même si les variables aléatoires z,, . .., zx ne sont pas 
réparties suivant une loi normale). 

2.6. Connaissant la variance 0° d’unc variable aléatoire normale dont 
la moyenne a est répartie suivant la loi exponentielle 


” @=< e &, a>0, a >0, (11) 


montrer que l'estimation de Bayes du paramètre a, pour une fonction de pertes 
simple, est égale à 


n 
a | oc? 
R=1 
et pour une fonction de pertes quadratique, à k 
à as 
= æ CO a 1 T9 2 
da=ést 7 LP (=) Eee (13) 


où F (z) est la fonction de Laplace. Vérifier que l'estimation (12) pour une 
fonction de pertes simple correspond à l'estimation du maximum de densité 
de probabilité a posteriori du paramètre a, et pour n —> oo tend asymptoti- 
quement vers l'estimation du maximum de vraisemblance, tandis que l’esti- 
mation (13) pour une fonction de pertes quadratique ne présente pas cette 
particularité. 


Chapitre 3 


STATISTIQUE DES PROCESSUS ALÉATOIRES 


3.1. DEUX MÉTHODES DE REPRÉSENTATION D'UN 
PROCESSUS ALÉATOIRE 


Un processus aléatoire peut être défini de deux manières diffé- 
rentes (cf. $ 4.1.2, tome I). Si pour caractériser les propriétés pro- 
babilistes du processus aléatoire E (f) on se limite à une fonction de 


répartition Fxy (x, ..., Zn: 1, . . ., IN) de dimension finie, le 
processus aléatoire se trouve identifié à un ensemble de NW variables 
aléatoires E, — E (4), ..., Ex —=E(t,) qui dans le cas général sont 


un ensemble de variables aléatoires dépendantes. Le choix des instants 
li, - - ., tn est aléatoire. Si, par exemple, on se donne l'intervalle 


d'observation (— T, T), on peut poser 4; — _ FL, k =... 


..., N. Le résultat de l’observation du processus aléatoire est dans 
le cas envisagé un échantillon prélevé sur la répartition multidimen- 
sionnelle F,, (cf. $ 2.7.1). 

Une autre méthode concervant toute l'information probabiliste 
sur le processus aléatoire consiste à considérer l’ensemble de ses 
réalisations comme fonctions du temps ?{. La mesure probabiliste 
déterminée sur l’ensemble des réalisations est la fonctionnelle carac- 
téristique du processus aléatoire (cf. (4.9), tome I) 


Otv(t)] = m, {exp É f (HE () dt |} | 


ici v (t) est une fonction continue et l'intégrale converge en moyenne 
quadratique. Dans cette méthode, le résultat de l'observation du 
processus aléatoire est un nombre fini de ses réalisations tronquées 


Et (#), [EI <T, 
(R) —= == 2 L_] e L] e 
T (£) { 0, ll T7, k 1, ’ 7 


Dans de nombreux cas, pour obtenir des conclusions statistiques 
sur les caractéristiques d’un processus aléatoire, il suffit (quand c’est 
possible) d'écrire le processus aléatoire comme la somme de processus 
aléatoires quasi déterministes. Les paramètres aléatoires (ne dépen- 
dant pas du temps) des composantes sont appelés parfois coordonnées 
du processus aléatoire. Le choix de ces coordonnées n'est pas univo- 
que et dépend des conditions du problème. 
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Deux types de coordonnées souvent utilisées dans les applications 
techniques des processus aléatoires peuvent être envisagés, à savoir 
les valeurs échantillonnées des processus à spectre énergétique limité 
et les coordonnées non corrélées. 


3.2. ÉCHANTILLONNAGE À DES INSTANTS DISCRETS 


3.2.1. Théorème de Kotelnikov (direct). Soit une fonction 
déterministe f (1) 


A 
= | Z(v)eivt du (3.1) 
TA 


dont le spectre (transformée de Fourier) Z (w) est continu et limité à 
la bande (— A, A), c’est-à-dire est une fonction de fréquence, conti- 
nue, à support borné, égale à zéro pour | © [> À 

La fonction à support borné Z (w) peut être écrite sous la forme 


d’une série de Fourier sur l'intervalle (— Q, Q), à condition que 
Q > À, soit: 


co 2rin 
Z(w)= Y ce 2”, (3.2) 
où : 
e ain 2xin 9 
En = DAME 2 do jzu 2 doi (Se). 
(3.2°) 


La série se trouvant dans le second membre de (3.2) est une fonction 
de la fréquence de période 24 ne coïncidant avec Z(w) que sur l’in- 
tervalle principal de périodicité (— , Q) et différant sur les autres 
intervalles (+kQ, + (4 + 1) Q), k > 1. En portant (3.2) dans (3.1) 
et compte tenu de (3.2) on obtient 


o= > Î (+) A . RAA. (3.3) 


L'expression (3.3) est une formule d'interpolation permettant de 
rétablir exactement toutes les valeurs de f (t) sur l’axe des temps de 
— 00 à + co d'après les échantillons de la fonction f (ft) faits à 
des instants discrets séparés de 2Q >> 2A. 


Pour la fréquence d’échantillonnage minimale possible 2Q — 
= 2Aona 


f (4) = s ee ENT 


2 à : C =) (3.4) 
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La formule (3.4) est l’expression du théorème connu de Kotelnikov 
en vertu duquel une fonction déterministe f (£) de spectre limité est 
entièrement donnée par ses valeurs discrètes en des points disposés 


les uns des autres à une distance égale à a *) où À est la pulsation 


maximale dans le spectre de la NT f (6). 


En vertu de (3.4), on peut obtenir f (£) par superposition d'une 


suite de fonctions de la forme es , obtenues par déplacement sur 


l'axe des temps par rapport à la précédente d’une grandeur égale à 
l'intervalle d’échantillonnage et multiplication par la valeur de 
lecture enr cnnREe) f. Il est facile de voir que chacune des 


fonctions sin [A = = c) |/LA (+) a un maximum égal à 


l'unité au point { — _ , et en tous les autres points { — À  k=n 
(k étant un nombre entier quelconque, y compris zéro) die est nulle. 

Notons que, le spectre de la fonction f (£) étant limité, celle-ci 
ne peut être à support borné, c’est-à-dire que l’on ne peut donner un 


intervalle de valeurs (même pour des t très grands) où la fonction 
soit identiquement nulle. 


Si la fonction f (t) n’est donnée que sur un intervalle de temps 
ne Le T) où l’on a N intervalles d’échantillonnage, c’est-à-dire 


si À nr = T <r , en définissant cette fonction à l'extérieur 
de T intervalle (0, T') de telle sorte que pour z <0et r > N on ait 
(T) — 0, on obtient dans ce cas à partir de (3.4) 


N ee sin[ à (ee) | 
= il ———-—— , 
, 2 (a) a (+ (3.5) 
N = 


où {| ] donne la plus grande partie entière du nombre se trouvant 


entre crochets. Pour V Ÿ 1 on peut sans erreur importante poser 


2AT 
N — 9x 


Les échantillons de f (£) permettent également de définir la 
valeur de l'intégrale du carré de cette fonction 


00 


E— | f°(t)dt (3.6) 


00 


*) Notons qu'à _ dans (3.4) on peut substituer to + T, to étant un 
nombre donné quelconque (cf. le problème 3.4). 
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en supposant que Æ soit borné. Portant (3.4) dans (3.6) et compte 
tenu de ce que le système de fonctions 


est orthogonal sur l'intervalle (— , œ) pour le poids ® (4) = 1 et 
que la norme des fonctions est = (cf. annexe IV), on obtient ainsi 


s-[roa- 3 > 1(E)1 (Ex 


n=—00 h=—= — 00 


| (3.7) 


Si les valeurs échantillonnées de f F.) sont égales à zéro pour n<<0 
et n > N pour NS 1ona 


E=+ 9 f (+) (3.7') 


Notons également que les formules (3.5) et (3.7°) peuvent servir 
d’'approximation pour le cas où la grandeur 


AT 


TT 
"16 a fn 
1—71 Dr(S) 
n=0 
est négligeable. 

Notons enfin que, avec des restrictions supplémentaires, la for- 
mule (3.4) reste vraie également dans le cas où le spectre de la fonc- 
tion f ({) se compose d’une partie continue occupant une certaine 
bande de fréquence et d’une partie discrète formée par une somme de 
fonctions delta (cf. $ 4.2.5 et 4.2.7, tome ÎI) 


Z (w) = Ze (©) + a06 (@) + 2 ax [ô(o-+-ox)+8(0—ox)]. (3.8) 


En vertu de (3.8), la fonction f (4) contient une composante cons- 
tante a, différente de zéro et des composantes harmoniques de pé- 


riodes = . C'est pourquoi la formule de Kotelnikov (3.4), pour des 
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fonctions de spectre (3.8), s'écrit comme suit : 


one à fe) E) 


: An 
n=— 0 4 (:-) 
n 


de plus 5A ++ pour tout k, car sans cela la série du second membre 


» (3.9) 


de (3.9) serait divergente pour t — = . 


A titre d'exemple d'application de la formule de Kotelnikov 
mentionnons la formule d’interpolation pour la fonction de corréla- 
tion B (x) d’un processus aléatoire stationnaire au sens général, dont 
le de énergétique F (w) est continu et identiquement nul pour 
[wo] A: 


ee sin| A (+—7 | 
B(r)= Ÿ (el (3.10) 
N= — 00 PET: 


En vertu de (3.3), dans le second membre de (3.10) on peut substi- 
tuer à À un Q >> A quelconque. En utilisant le théorème de Wiener- 
Khintchine (cf. $ 4.2.3, tome I) et compte tenu de la relation 

i1n0 


20 sin [ (+) | Le LE 
il a (:-+) ds ju<a, 610 
0, |[&|> A, 


on déduit immédiatement de (3.10) la relation entre le spectre éner- 

gétique limité et les échantillons de la fonction de corrélation, 

soit : 

F(w)=<Z S B(+) e à — 
A A 


N— — 00 


= 2 [80+228 (je 6]. lol<a 6412 
n=1 


Pour un bruit blanc ayant traversé un filtre parfait passe-bas 
(cf. (5.31), tome I) la fonction de corrélation est nulle aux points 


T = _. pour nr >> 0. Dans les formules (3.10) et (3.12) seuls les pre- 


miers termes restent et celles-ci deviennent les formules (5.44) et 
(5.45) du premier tome (pour w&, = 0). On voit également qu’en ver- 


tu de (3.10) et (3.12) un processus stationnaire au sens général, dont 
la fonction de corrélation s’annule pour + = + , est équivalent par 


ses caractéristiques énergétiques à un bruit blanc après filtrage par- 
fait. 
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3.2.2. Théorème de Kotelnikov (inverse). Soit maintenant f (t) 
une fonction continue, identiquement nulle pour |[{| > --. 


Le spectre de cette fonction (sa transformée de Fourier) est égal à 
T 


2 


Z (&) -- | f(t)e-ist dt. (3.13) 


T 


2 
Cependant, le spectre continu Z (w) de la fonction f (t) limitée dans 
le temps par l'intervalle |[{t| _. est défini d'une manière univo- 
que par les densités spectrales aux pulsations wx = =, où k est 
un nombre entier quelconque (y compris zéro). En effet, en déve- 
loppant en série de Fourier sur l'intervalle |[{1| << 5. la fonction 
f (t) à support borné, on obtient *) 


co orin 
fb= N axe T., (3.14) 
où | 
_. I ( t on Î Z 2xtin 3 14°) 
agite 525). 6: 


En portant (3.14) dans (3.13) et en utilisant (3.14”), on obtient 
après quelques réductions 


so in sin (S- sn ) 
Z(w)= Y 2(—+ nc” era (3.15) 
n-=—00 F9 


La propriété exprimée par la formule (3.15) du spectre d’une fonc- 
tion bornée dans le temps est analogue à la propriété d’une fonction 
à spectre limité, donnée par le théorème de Kotelnikov [cf. (3.4)]. 

Notons que le développement d’une fonction f(t) à support 


borné sur l'intervalle (—> | 7) en série de Fourier (3.14) définit 


271in 


T 


f (€) en fonction des valeurs de son spectre Z ( ] sur des pulsa- 


; . 21 
tions distantes les unes des [autres de —. 


*) Comme au $ 3.2.f, on peut obtenir une relation plus générale donnant 
un nombre superflu d'échantillons de Z (w) en développant f (t) en série 


de Fourier sur l'intervalle | t | T1 pour 7: > T. 
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Il est également facile de trouver l'équivalent de la formule (3.7) 


T 
"2. co 00 
E = [ro | HOME) 2) (3.16) 
T — 00 N= — 0 
LE: 
ou, compte tenu de (3.14), 
= ÿ &, (3.16’) 


comme on pouvait s’y attendre en conformité du théorème de Parse- 
val (cf., par exemple, [8]). 

Pour illustrer le théorème inverse de Kotelnikov considérons 
la formule d’interpolation pour un spectre énergétique continu 
F (o©) d’un processus aléatoire stationnaire au sens général dont 
Ja fonction de corrélation B (x) est identiquement nulle pour 
RAPATE 


| jan \ Sin (@To—7n) 
= — 00 


En utilisant le théorème de Wiener-Khintchine (cf. $ 4.2.3, tome I) 
et compte tenu de (3.11) on obtient à partir de (3.17) la relation 
entre la fonction de corrélation à support borné et les valeurs 
échantillonnées du spectre énergétique: 


B()= . F(T) e T0 — 


[Fr O+2 2r(E 7) cos  |Itl<t (3.18) 


3.2.3. Extension du théorème de Kotelnikov aux processus aléatoi- 
res. Soit & (£) un processus aléatoire continu en moyenne quadratique 
et stationnaire au sens général, dont le spectre énergétique 
F; (©) est continu et identiquement nul à l'extérieur de la bande 
de fréquence | © | A. Montrons que pour ce processus l'égalité 
suivante est vérifiée (en moyenne quadratique, cf. $ 3.5, tome I): 


sin a | Lis 
LO= D E(E ns (8.19) 
= — 00 A 


L'égalité (3.19) qui généralise le théorème de Kotelnikov aux pro- 
cessus aléatoires exprime le fait qu’un processus continu en moyenne 
quadratique, à spectre énergétique limité, se trouve être entière- 
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ment défini par un ensemble dénombrable de variables aléatoires 
(coordonnées du processus aléatoire) 


(et), n=0, æ1, (3.19) 


Avec les restrictions mentionnées, le processus aléatoire est une 
somme de processus quasi déterministes du type 


Pour démontrer que l'égalité (3.19) est vraie en moyenne quadra- 
tique, il y a lieu d'établir l'égalité des fonctions de corrélation des 
processus figurant dans les deux membres de l'égalité. On a 


Comme E (f) est stationnaire au sens général, on a 
m{E(R)(R)}= mien] 


De plus, pour des f et t arbitraires, la somme double devient une 
somme simple *), d’où 


sin [ a (+5) L a ee sin [a (5) | 
fr) LÉ (+) 


*) Ceci découle immédiatement de la formule (6) du problème 3.3. 


X . (3.20) 
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Comme le spectre énergétique F: (@) n'est défini que dans la 
bande de fréquence | © | < À, en vertu de (3.10) la somme du second 
membre de (3.20) coïncide avec la fonction de corrélation B4 (t). 

En utilisant les remarques faites au $ 3.2.1, on peut étendre 
quelque peu les conditions d'applicabilité de la formule (3.19). 
Notons avant tout que cette formule est vraie lorsque l’on remplace 
À par un Q > A quelconque {cf. (3.3)], de mème si l’on remplace 


dans le second membre _. par to + _ (problème 3.4). De plus, 


on peut lever la restriction concernant la continuité du spectre 
énergétique du processus & (£) et admettre que le spectre contienne 
une partie discrète (somme de fonctions delta) aux pulsations ©} 
à condition que À Æ no,. Enfin, on peut généraliser (3.19) aux 
processus aléatoires à bande étroite (cf. problème 3.1). 

Les coordonnées du processus aléatoire E (f) choisies conformé- 
ment au théorème de Kotelnikov sont en général des variables 
aléatoires corrélées. D'autre part, l’utilisation de ces coordonnées 
est limitée par les conditions exigeant que le processus soit sta- 
tionnaire, au moins au sens général, et que son spectre énergétique 
soit borné dans le temps. Nous allons maintenant passer à l’étude 
des coordonnées d’un processus aléatoire non astreint à de telles 
restrictions. 


3.3. DÉVELOPPEMENT ORTHOGONAL D'UN PROCESSUS 
ALÉATOIRE 


3.3.1. Développement orthogonal d’une fonction de corrélation. 
L'étude des propriétés générales des fonctions de corrélation des 
processus aléatoires montre que toute fonction de corrélation B (t, t) 
est un noyau symétrique d’une forme quadratique semi-définie 


positive (cf. $ 4.2, tome Ï), c’est-à-dire que pour tous 7, u,, ..., u, 
on a 

n n 

D ba B(ti,tj)uiu;>0 (3.21) 


i=1 7 1 


T 
ou pour une fonction jf (t) quelconque si toutefois \ f* (&) dt < oo, 
ÈT 


on a . 
BR ECPIDOIOEZL EU di 
TT 


En utilisant (3.21) pour (3.21”), il est possible de représenter la 
fonction de corrélation d’un processus aléatoire sous la forme de la 
série suivante : 


È l 
B(4, y) D SRO , (3.22) 


LES | 
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où 4 (t) et À; sont les fonctions,propres (solutions) et les nombres 
caractéristiques de l'équation intégrale linéaire homogène 


pU=1 | BEHeG@ay, l11<T. (3.23) 
-T 


Les fonctions propres y, (£) forment un système de fonctions ortho- 
gonales normées, c’est-à-dire 


T 
L[O ki, | 
ILOCL CES pires (3.23) 


En multipliant les deux membres de (3.23) par ® (ft), en intégrant 
ensuite sur t de —7 à T et compte tenu de (3.21) et (3.23”), on peut 
voir que les nombres caractéristiques À, sont positifs. De plus, si la 
fonction de corrélation B (ft, y) est définie positive [c’est-à-dire 
que dans (3.21) et (3.21”) l'égalité à zéro se trouve exclue] on peut 
montrer que l’ensemble des fonctions propres est achevé. Ceci signi- 
fie que sur l'intervalle | £ [| < T il n'existe pas de fonction 1 (t) 
qui soit orthogonale à tous les œ4 (4). 

Pour la fonction de corrélation B (t) d’un processus aléatoire 
stationnaire au sens général, le développement (3.22) peut s'écrire 
comme suit : 


B(—y= 3, RE, (3.24) 
LES | 
pour {= yona 
1 PE () , 
B(0)}= ÿ, æ (3.24°) 
k -=1 


En intégrant les deux membres de (3.24) par rapport à t, on ob- 
tient compte tenu de (3.23”) 


et 
> 12780), 
R=1 


c’est-à-dire que la somme de grandeurs inversement proportionnelles 
aux nombres caractéristiques est égale à l’énergie moyenne du 
processus sur l'intervalle (— T, T). 

Comme on peut le voir facilement, dans le cas général la somme 
des puissances inverses des nombres caractéristiques peut s’expri- 
mer comme suit [cf. (3.32), tome Ï] 


00 T 
DH | Bu, v)du, (3.247) 
h=1 d 2T 
11—0682 
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où Bt" (u, v) est l’itération d'ordre r de la fonction de corrélation 
B (6, y) 


T 
B" (u, v) Fi B(u, ti) B (£1, Le) …. B (tn-1, v) dt. .. dln-1; n > 2, 
-T 


+ 


BM(u,v)=B(u, v). 


Notons que pour la fonction de corrélation d'un bruit blanc 
d'intensité unitaire on a Bt, y) — Ô (t — y) et compte tenu de 
(3.23) tous les nombres caractéristiques sont égaux entre eux et 
égaux à l'unité: À = 1. On a alors en vertu de (3.22) 


ô(t—y)— à a (£) Pr (Y), (3.24”) 


où {y (t)} est un système quelconque de fonctions orthonormées. 
3.3.2. Coordonnées non corrélées d’un processus aléatoire. Soit 
un processus aléatoire Ë ({) continu en moyenne quadratique, de 
moyenne nulle et dont la fonction de corrélation est B (t, y). Nous 
allons prendre pour coordonnées du processus aléatoire E (f) les 
variables aléatoires (l'intégrale en moyenne quadratique) 


T 
= VA | E (£) qu (é) dt, (3.25) 


-T 


où œz (t) et À, sont les fonctions propres et les nombres caracté- 
ristiques de l'équation intégrale (3.23). Les valeurs moyennes de 
ces variables aléatoires sont, de toute évidence, nulles. De plus 
elles ne sont pas corrélées deux à deux et ont toutes des variances 
égales à l’unité, car en vertu de (3.23) et (3.23°), on a 


TT 
ma {EE} = V'Anhm | À B (6, y) où (0) qu (a) dt ay = 
TT 
T 
Âm es 0, k . m, 
= y = j Pa (Y) Pm (y) dy = { Lo (3-26) 


Montrons maintenant que pour un # quelconque appartenant à l’in- 
tervalle (— T7, T) on a en FO quadratique 


E (4) — DE DS | (3.27) 


c'est-à-dire que 


N 
ER O=DETE 27°) 
R=—1 : 


3.3], DÉVELOPPEMENT ORTHOGONAL D'UN PROCESSUS ALÉATOIRE 163 


converge en moyenne quadratique vers Ë (t) pour W — co. 
Compte tenu de (3.25), (3.26) et (3.27) on trouve 


N T 
ma {E (0) Ex (0)}= mu LE) Dont) À EC) qu (u)du} = 
R=1 -T 


N T 


PA (2) 
= Ÿ | B (t, u) qn (u) qn (£) du = 340 $ 
k=A ©T k=i 
ne (t) L PA (4) 
m1 {EX (4)} = 2 DRE {EnEn} = D À ’ 
rene k-=1 
d’où 
10 ï 
ma {LE () — Es (01) = B(, D D. (3-28) 
h==1 
A partir de (3.22) pour t — y on obtient 
B(t,1)— s _. (3.29) 
ee, 


et, par conséquent, pour V —+ le second membre de (3.28) tend 
vers zéro, c'est-à-dire que Ex () converge en moyenne quadratique 
vers E (t). 

Ainsi se trouve démontrée la possibilité de représenter un pro- 
cessus aléatoire par une somme de processus aléatoires quasi déter- 


ministes du type E: , Où oz (é) et À, sont déterminés par la 
k 


fonction de corrélation du processus, et £, sont des variables aléa- 
toires obtenues par intégration « pondérée » du processus aléatoire 
[cf. (3.25)]. 

Quand la moyenne de Ë (t) n’est pas nulle mais égale à a (4), 
il y a lieu d'utiliser le développement (3.27) pour trouver l'écart 
d’un processus aléatoire de sa valeur moyenne, on a alors 


E(=a()+ DR, #1<7, (3.30) 
NS Vi 
ici le noyau de l'équation intégrale (3.23) n’est plus B (£, y) mais 
B (t,y) — a (t) a (y). 
Notons que l’on peut représenter la fonction déterministe a (4) 
sur l'intervalle | ? | < T sous la forme d’un développement ortho- 
gonal, soit: 


a(= Ja, [r1<T, (3.31) 
er Vu 


11 
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T 


ax=V x | a (u) ox (u) du, (3.32) 
-T 


x (4) et À4 étant un ensemble quelconque de fonctions propres et de 
nombres caractéristiques *). On peut vérifier (3.31) en y portant 
(3.32) et en utilisant (3.24). 

Réunissant (3.30) et (3.31) on peut écrire le développement 
du processus aléatoire E (4) de moyenne non nulle sous la forme 
suivante : 


Va 


Notons qu'il est possible d'obtenir le développement d’un pro- 
cessus aléatoire suivant un ensemble quelconque de fonctions déter- 
ministes orthogonales **), mais dans ce cas général les coordonnées 
du processus seront corrélées. Ce n’est que pour un choix judicieux 
de ces fonctions, compte tenu des propriétés corrélationnelles du 
processus [cf. (3.23)],que les coordonnées deviennent non corrélées. 
Si, de plus, le processus EË (£) est normal, ces coordonnées non corré- 
lées deviennent des variables aléatoires indépendantes. 

La difficulté majeure que l'on rencontre lors de l’utilisation 
pratique du développement orthogonal du processus aléatoire (3.27) 
ou (3.30), c’est-à-dire lorsqu'on le représente sous la forme d’un 
ensemble dénombrable de variables aléatoires, est de trouver les 
solutions exactes de l'équation intégrale (3.23). Ce n’est que pour 
des processus stationnaires dont le spectre est une fraction ration- 
nelle qu'il est possible de trouver ces solutions par intégration d’une 
équation différentielle linéaire (cf., par exemple, annexe 2 dans (31). 

3.3.3. Développement orthogonal d’un processus aléatoire complexe. 
Dans certains problèmes on a besoin de généraliser le développement 
orthogonal mentionné ci-dessus au cas d’un processus aléatoire 
complexe (cf. $ 4.7.1, tome Î) 


G (6) = 6 () - in (). 


E(t)= D (ta) PO (3.33) 
R=1 


T 00 
; ai 
*) On suppose également que | a* (t) dt = > — < 00. 
hh 
—T _ = 1 a 
*+) Parexemple, les fonctions harmoniques v À cos k&ot, V2 sin kwot, 


9 
Oo — T dans ce cas le développement est appelé série de Fourier (en moyenne 


quadratique). 
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Tout comme dans (3.22), on peut écrire la fonction de corrélation 
du processus & ({) sous la forme suivante 


B, (t, y)= m, {& (t) EUu)} = DAOBT. (3.34) 


R=1 


où le trait indique qu'il s’agit d’une grandeur complexe conjuguée, 

x (t) et À& étant les fonctions propres et les nombres caractéristi- 

ques de l'équation intégrale (3.23) de noyau B: (#, y). 
Introduisant les coordonnées complexes non corrélées 


T 

D VA [Em à, (8.35) 
-T 

_ (0, km, 

M {bnCm} = U . (3.35°) 


et supposant toujours que la moyenne est nulle, on obtient le déve- 
loppement orthogonal suivant du processus & (4): 


6 (4) = 3 ES . (3.36) 


Quand la moyenne a; ({) du processus & (t) n’est pas nulle, par ana- 
logie avec (3.33) on obtient 


_— ' Ph (4) 2 
C(#) = 2 (Ex + an) Ve (3.57) 
ou 
Ah = Vu j ag (£) Pr œqn (6) dt. (3.38) 


3.3.4. Bruit blanc à la traversée d’un filtre parfait. Pour illus- 
trer ce qui a été dit au $ 3.3.2, considérons un processus aléatoire 
stationnaire (au sens général) à la sortie d’un filtre passe-bas par- 
fait, à l'entrée duquel on applique un bruit blanc de puissance W, 
par unité de bande [cf. (5.30), tome I]. Le spectre énergétique de ce 
processus est 


2N5, [w|<A, 
F(L)= | 0, [[>A, (3.39) 
et sa fonction de corrélation 
B(t—y)— B(O) EE. (3.39') 


— y) À 
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Les fonctions propres de l’équation intégrale (3.23) de noyau (3.39) 
forment un ensemble de fonctions orthonormées {cf. formule (6) du 
problème 3.3] 


— sin À (:-) 


ONE ui, 
es 
les nombres caractéristiques étant 
Î , 
Àk = No L (3.40 ) 


Les variables aléatoires 


En sin Ps | 
u= y + jo (3.41) 
a 


sont en vertu de (3.25) les coordonnées non corrélées du processus 
tandis que son développement orthogonal 


—— sin | À RL 
T0 4 EL Aro (3.41°) 
est une série de Kotelnikov [cf. (3.19)1 avec E, — es ë (+) 


Notons que l’on peut obtenir le développement orthogonal d'un 
bruit blanc E (f) d'intensité spectrale W, à partir d’un système 
quelconque de fonctions orthonormées {4 (t)} [cf. (3.24”)]. Les 
coordonnées non corrélées d’un bruit blanc sont 


= RC pa (4) dt. (3.42) 


3.4. CARACTÉRISTIQUES DES COORDONNÉES OBSERVÉES 
D'UN PROCESSUS ALÉATOIRE 


3.4.1. Fonction de vraisemblance des coordonnées observées. 
Supposons que le processus aléatoire Ë& (4) soit donné par ses coor- 
données, c’est-à-dire par un ensemble fini ou dénombrable de varia- 
bles aléatoires £.. Si l’on se donne la durée de l'intervalle d'observa- 
tion, le résultat d’une expérience peut être représenté par un élé- 
ment d'un échantillon d’une distribution multidimensionnelle de 
l’ensemble E,, ..., E,. On peut représenter les résultats des obser- 
vations différemment, suivant les coordonnées adoptées. Ainsi, lors 


de l'observation sur l'intervalle (— T, T) à des intervalles de temps 


2T 


égaux T° l'élément de l'échantillon se compose de W nombres 
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. 2k — ; . 
mn = EE), où 4 = TT, k—1,..., N.Si l'échantillon 
est prélevé dans un ensemble de variables aléatoires non corrélées 
(3.25), les coordonnées observées seront les grandeurs obtenues par 
intégration sur un intervalle donné de la réalisation E‘(4) 


pondérée par des valeurs différentes }/A4 (£), c'est-à-dire 
T 


lu À EP (qu (0) de, k=1,...,N, 


-T 


où, en vertu de ce qui a été exposé ci-dessus, y, (t) et À; sont donnés 
par la fonction de corrélation du processus E (4). 

En poursuivant les observations indépendantes des coordonnées 
du processus aléatoire on obtient successivement les éléments de 
l'échantillon zen, . . ., Tnns À —= 1, ..., N. La distribution con- 
jointe des valeurs échantillonnées, c’est-à-dire la fonction de vrai- 
semblance des coordonnées observées, est égale au produit des densi- 


tés de probabilité multidimensionnelles des éléments de l’échan- 
tillon [cf. (2.196)] 


Las tn) = |] W x (ans ce) ThN). (3.43) 


Souvent, lorsque W est suffisamment grand, on peut se limiter à un 
échantillon de taille z — 1. Notons que la limite de Wy (zu1, . .. 
..…. Tv) pour V —+ co n'existe pas. 

3.4.2. Répartition des coordonnées observées d’un processus aléatoire 
normal. Nous allons maintenant obtenir les expressions de la fonc- 
tion de vraisemblance des coordonnées observées d’un processus 
aléatoire normal, qui seront souvent utilisées dans la suite. 

Pour des observations à des intervalles de temps égaux, la dis- 
tribution conjointe de W coordonnées observées, donnée dans l’espace 
des échantillons, est une densité de probabilité normale à W dimen- 
sion [cf. (4.159), tome I) 


1 
W,, (zi, .., Ty) = 


———_—_———— X 
(2x) "7° O1... 0x VD 
\ 


\ 
x exp{ 5 > Di Din #treL Eten À , (3.44) 


Ok 
i-=1 Rk:=1 


où a, = a (tx), On = © (t:) sont la moyenne et la moyenne quadra- 
tique, et D et D;, le déterminant et les cofacteurs de la matrice des 
coefficients de corrélation. 

Si l’on prend pour les coordonnées les variables aléatoires déter- 
minées conformément à (3.25), l'expression de la fonction de vrai- 
semblance se trouve simplifiée. En effet, si E ({) est un processus 
aléatoire normal de moyenne nulle, ses coordonnées (3.25) sont des 
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variables aléatoires non corrélées et, par conséquent, indépendantes. 
Leur densité de probabilité multidimensionnelle est donc le produit 
de fonctions normales unidimensionnelles des variables aléatoires 
ë. de moyenne nulle et de variance unité, c'est-à-dire 


N 
| 1 1 | 
W, (x, .… En) = NE XP (72 ci} . (3.45) 


Pour un processus aléatoire dont la moyenne a (t) n’est pas nulle, 
les coordonnées observées sont en vertu de (3.33) les grandeurs 


T 
Etan= Van | (E(6)+ a (61 qu (0) dé, (3.46) 
on a alors É 
Wy (tu -.., Tv) = PAUL exp {—- S (zx — ar)° Fe (3.47) 
k=1 


Dans le cas où on a nr observations indépendantes de la réalisa- 
tion du processus sur l'intervalle (— T, T), les fonctions de vraisem- 
blance peuvent s'’écrire comme suit: 


1 
(2x)"N/2 VD" (O1 .…. On)" 


n N NN 
X exp {+ ÿ > ÿ Din EEE Er (3.48) 


r=1 i=11 Rk=1i 


LL 


L (CITE .. TnN) = 


pour un échantillonnage périodique des valeurs d’un processus aléa- 
toire normal et 


Leu ++ anv)= = net exp {—+ s' SUn—a}} (3.49) 


r—=1 hk=1 


pour des coordonnées non corrélées. Pour r = 1 les formules (3.48) 
et (3.49) deviennent respectivement (3.44) et (3.47). 

3.4.3. Rapport de vraisemblance et sa forme limite. Comme nous 
l'avons montré dans le premier chapitre, les stratégies de vérifica- 
tion des hypothèses statistiques concernant les paramètres de la 
répartition d’une variable aléatoire sont basées, pour des critères 
de qualité adoptés, sur le calcul du rapport de vraisemblance et sa 
comparaison avec un seuil. Il est évident que lorsque l’on présente 
les résultats des observations d’un processus aléatoire par un échan- 
tillon discret, les stratégies mentionnées dans le premier chapitre 
peuvent être utilisées directement pour la vérification des hypothèses 
statistiques. Ainsi, par exemple, si Wxylz, ..., zn | So (t)] et 
Wn [x, ..., æn | S1 (6)] sont les fonctions de vraisemblance de 
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l'échantillon (n — 1), la stratégie (de Bayes, de Neumann-Pearson 
et parfois du minimax) de vérification des hypothèses sur la valeur 
moyenne, égale à so (fé) (hypothèse H5) ou à s, ({) (hypothèse J7;), 
se formule comme suit: on adopte l'hypothèse F7, si pour les coor- 
données observées x;, ..., In on a 


Wir ...,zx | s (0) | 
Gr BE Eee 2 © SSL 


où le seuil c dépend du critère de qualité choisi. 

Cependant, lors de la vérification des hypothèses statistiques 
concernant les paramètres des processus aléatoires ayant des densités 
de probabilité continues de dimensions finies, on peut au lieu des 
échantillons discrets x,, . .., æN utiliser toute la réalisation obser- 
vée x (t) du processus aléatoire E (4). Cette possibilité est basée 
sur un théorème fondamental en vertu duquel dans certaines condi- 
tions il existe une limite finie en probabilité pour V — du rapport 


de vraisemblance L(x;,, ..., xN), que l’ensemble zx, ..., x 
appartienne à la distribution Wyi(z;, ..., zn Ho) ou à 
Wr (z:, ..) TN | Æ;), c'est-à-dire 

Wn (r: .... TV | H:) 


RAD EEE DS A Wn (ru... 2x Ho) HIS. 6:91) 
la limite (3.51) étant différente de zéro. Cette limite est appelée 
fonctionnelle du rapport de vraisemblance de l'échantillon observé. 
En utilisant la terminologie de Grenander [2], nous appellerons 
régulier le cas où la fonctionnelle du rapport de vraisemblance 
L{z (t)] > 0 existe. 

Pour d’autres conditions la fonctionnelle du rapport de vraisem- 
blance augmente indéfiniment ou s’annule, ce qui correspond au cas 
de la dégénérescence, appelé cas singulier. 

On peut montrer que dans le cas régulier, pour un temps d’obser- 
vation quelconque fini 7, la stratégie utilisant la fonctionnelle 
du rapport de vraisemblance conduira obligatoirement à des proba- 
bilités non nulles de prise de décisions erronées. Au contraire, dans 
le singulier des décisions correctes sont possibles pour tout 
T >> 0. 

Comme dans le cas d’un échantillon discret, nous utiliserons 
non pas la fonctionnelle du rapport de vraisemblance mais son 
logarithme In Z [x (#)]. Dans le cas régulier | 1n Z {x (t)] | est limité, 
alors que dans le cas singulier il ne l’est pas. 

La démonstration générale de ce théorème et de la conséquence 
mentionnée ci-dessus exige l'emploi d’un appareil mathématique 
compliqué et sort du cadre de cet ouvrage (cf., par exemple, [2], [4)). 
Nous donnerons par la suite des applications de ce théorème au cas 
des processus aléatoires normaux. 
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3.4.4. Fonctionnelle du rapport de vraisemblance d'un processus 
aléatoire normal. Soit & (£) un processus aléatoire normal de moyenne 
nulle et de fonction de corrélation B (t, y) connue. Dans le premier 
cas ce processus est ajouté au processus déterministe so (t) (hypothè- 
se /T,) et dans le second, au processus s, (t) (hypothèse HJ,). Ecrivons 
le logarithme du rapport de vraisemblance pour l’échantillon discret 
Zi, - -., Zn Obtenu sur l'intervalle (— T, T) à des intervalles 
de temps réguliers à partir de la réalisation x (t) de l’un des proces- 


sus Ë (£) + so (t) ou E (ft) + si (+): 
N NN 


; j 
In ! (x, ses TZ) = SD Y > D;; [(zi —ssi) (Zi; — S15) — 
i=1 j=1 
N 


N 
1 
— (ri Soi) (t5— 505) = — 55 D D Dis (Soi — sui) z5+ 
i—1 J=1 
; + (Soj — S15) Ti + (S1iS15 — SoiSoi)], (3-52) 
2k—N 
Th = Z(ln); Son —So(tn); Sir = Si(tn) 3 = TT; 
D et D;; étant le déterminant et le cofacteur de l'élément B (46:, t;) 
de la matrice de corrélation M = || B (£;,t;) |, on suppose de 
plus que la matrice M n’est pas dégénérée, c'est-à-dire que D > 0 
et que pour tout { il existe une matrice inverse, dont les éléments 
D: : 
sont —*. 
Nous allons trouver la limite de (3.52) pour N — oo, c’est-à-dire 
le logarithme de la fonctionnelle du rapport de vraisemblance. 


Soit tout d’abord la forme bilineaire 
N ÀN 


£ D; 
K y —= D > TE ciys. (3.53) 
i1=1 )-=1 
Posons 
N :. 
Vi= Due j=1,..., N. (3.54) 
i=1 
On a alors \ 
K y = ÿ V';x;. (3.54”) 


Comme met sont les éléments de la matrice inverse de la matrice 


de corrélation, la solution du système d’équations algébriques 
linéaires (3.54) peut s’écrire comme suit: 


N 
Yi = SD B(i,t»V;, PR À (3.54”) 
j=1 
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Pour NW — oc (ou pour max OS — t,) — 0 sur l'intervalle d'ob- 
servation) la forme bilinéaire devient une forme intégrale 


T 
lim Ay=K= | V(t)z(#)dt, (3.55) 
N=s 00 CT 


et le système d'équations linéaires (3.54), une équation intégrale 
linéaire non homogène 


T 
y()= | B(tu)V(u)du, |1|<T, (3.56) 
T 


à partir de laquelle pour y (t) et B (t, u) donnés on trouve la fonction 
inconnue V (ét) entrant dans l'expression (3.55). 

En utilisant (3.55) et (3.56), on peut dans (3.52) passer à la 
limite pour V — o et obtenir l'expression suivante pour le loga- 
rithme de la fonctionnelle du rapport de vraisemblance, vers laquel- 


le le logarithme du rapport de vraisemblance In Z(x;, ..., zN) 
converge en probabilité: 
T , T 
nltz()= [VOz@a+T | Mt) ViOs Id, (8.57) 
2T ST 


où V'(t), V; (t), Vo (t) sont les solutions des équations intégrales 
linéaires non homogènes suivantes (partout |t | < T): 


T 


| B(t,u)V(u)du=si(t)—so(t), (3.58) 
CT 

T 

| B(t,u)Vi(u)du=s(t), (3.59) 
oT 

T 

| B(t, u) Vo(u) du = so (t). (3.59°) 
2T 


En comparant (3.58) avec (3.59) et (3.59°) on voit que 
V (à) = V, () — Va (1). (3.60) 


Puis, en multipliant les deux membres de (3.59) par V, (t) et 
ceux de (3.59’) par V;,(t) et en intégrant sur t de —T à T on obtient 


T T 
js (#) Vo) dt = | so(t) Vi (t) dt. (3.60') 
-T -T 
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En utilisant (3.60) et (3.60”), la formule (3.57) devient 


T 


Inl[z(t)] = | V (4) [rc 2040 dt. (3.61) 
-T 


On peut également obtenir l'expression (3.61) du logarithme 
de la fonctionnelle du rapport de vraisemblance en passant à la 
limite pour Ÿ —+ oc dans le logarithme du rapport de vraisemblance 
pour /V coordonnées indépendantes observées. En utilisant (3.47) 
on obtient 


N 
In l(xi, ..., Zn) = —ÿ [(zx — br) — (x — an)°] = 


R=1 


> (a — b?) + Ù Th (br — an), (3.62) 


—{ R=1 


ou 
T 
eV | z (4) qu (t) dt ; (3.63) 
Fe 
an = VA | s0(8) qu (E) dt: (3.64) 
_ 
= VA | 5) (0 dr: (3.64) 


À: et qA(t) étant les nombres caractéristiques et les fonctions propres 
de l'équation intégrale linéaire homogène (3.23). 
Introduisons la notation 


N 
V y (é) = 2 V' An (bn — an) pr (£). (3.65) 
On peut alors écrire comme suit l'expression (3.62) : 


T 
Inl(ri, -., En) = | Va ()[z (— OA |. (8.66) 
-T 


Notons également qu’en multipliant les deux membres de (3.65) 
par B (t,u) et en intégrant sur ?{ de — T à T on obtient compte 
tenu de (3.23) 


l B(t,u)V,(t) a > dre Sn pa (u). (3.67) 
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Quand 


# 


(ax — bx} € oo, (3.68) 


LA 8 


la limite finie 
lim V,({)=V(t) (3.68) 
N-00 

existe, la fonction V (£) étant donnée par l’équation intégrale non 


homogène linéaire suivante [cf. (3.67) et (3.31)] 
T 


B(t,u)V{u)du= 9 —%# y (t)— 
fl à Vi 
5 = Pa () = 1 (8) — so (E), [IT 
av 


celle-ci coïncidant avec (3.58). 

Lorsque la condition (3.68) se trouve remplie, en vertu de (3.68) 
le logarithme du rapport de vraisemblance (3.66) converge en proba- 
bilité vers la fonctionnelle 

T 


In L [x (4)] — | V (4) [2 ()—#0540 | dt 


-T 


cette dernière expression coïncidant avec (3.61). 
OO 


Si la série À (ax — b})* est divergente, on peut montrer 


(cf., par exemple, [2], $ 4.4) que le logarithme du rapport de vrai- 
semblance (3.66) tend en probabilité pour V — o vers + oo, si 
z(t) appartient au processus Ë (4) + s, (f) et vers —o si zx (t) 
appartient au processus E (£) + so (#). 

Ainsi, si la condition (3.68) se trouve remplie, on a le cas régulier 
(conformément à la terminologie du $ 3.4.3), et si cette condition 
n'est pas remplie, le cas singulier. 

Si l’on observe nr réalisations indépendantes zx, (4), . .., x, (t), 
compte tenu de (3.48) ou de (3.49), on peut généraliser immédiate- 
ment (3.61) en écrivant comme suit le logarithme de la fonctionnelle 
du rapport de vraisemblance : 


Inl{xi(£), ..., Tn(t)] = 
T 

= [vo {5 a (0) (o(t)+s(01} dt, (8.69) 
Sr 


où V (t) est comme précédemment la solution de l'équation inté- 
grale (3.58). 
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3.4.9. Généralisation au cas d’un processus aléatoire complexe. 
Nous allons généraliser les résultats du paragraphe précédent à un 
processus aléatoire normal complexe & (£) de moyenne nulle et de 
fonction de corrélation B: (t, y) connue (cf. (3.34)]. Trouvons le 
logarithme du rapport de vraisemblance pour un échantillon discret 
(de taille 2W) des coordonnées non corrélées 


2 = Th + iyr, À = À, Sn. N, (3.70) 
obtenues à partir de la réalisation z (4) = x (t) + iy (t) observée 
sur l'intervalle (— 7, 7) du processus 6 (t) = E (t) + in (t) (hy- 
pothèse Æ,) ou du processus & (4) + s (4) = E (t) + a (t) + 
+ in () + b (tiloùs (ft) = a (t) + ib (t) est une fonction complexe 
déterministe (hypothèse H,). Il vient de (3.35') 


Mi {Thïm} = Mi {Yaÿm} = 0, km, 
M {Zrÿm} = O pour À et m quelconques 
n e° À 
ma {2h} = MAUR} = +. 
Introduisons de plus les coordonnées du processus déterministe 
Sp — AR 1 ib},. 
Comme les variables aléatoires xz;, y» sont normales, on obtient 
d'une manière analogue à (3.62) 
N 
In Las, du ns Yale À (rh + vf —(n — a) — (x —br)*] 

ou, sous forme complexe, 


N 
Inl(z, 883 2x) = > REZ |] 22 — 5x *] = 
Rk=1 


N 
= 2 > [Re (sx) — + Sh F | ; (3.71) 
k=—1 


2 = Vin | z(t)qn (2) dt; (3.72) 


sa= Van | s(1) qu(t) à, (3.73) 
-T 


et À, et œ,4 (t) sont les nombres caractéristiques et les fonctions 
propres de l’équation intégrale (3.23) de noyau B: (, u). 
Introduisons la notation 


N 
Vr (t)= à VA saga (4). (3.74) 
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On peut alors écrire (3.71) comme suit: 
T 
= 7 Le s (t) i æ 
InZ(s, ..., 5y)—2Re LE [:@—<]&. (875) 
-T 
Si 


SIP < oo, (3.76) 
k=1 
la limite 
lim V,. (4) = V(t) 
No 


existe. Elle est obtenue à partir de l'équation intégrale linéaire 
non homogène [comparer avec (3.58)] 


T 
Î (t, u)V(u)du=s(t), [4] <T. (3.77) 
-T 


Sous forme complexe, l'équation intégrale (3.77) est équivalente 
à un système de deux équations intégrales par rapport à la partie 
réelle VA (£) et la partie imaginaire V;, (t) de V (t) 


T 
| LB (t, u)+ BA, u)] Vr(u) du+ 
ST 


T 
+ | [Ben (6, u)— Bn;(t, u)]Vr(u)du—Res(t), (3.77) 
=T 


y ve] 


LB (6, u)+Bn(£, u)] Vr(u) du + 


| 


E T 
Ho | LBuz(t, u)— Bin(t, u)]Vr(u)du=Ims(t). (3.77”) 
—T 


Lorsque la condition (3.76) se trouve remplie, le logarithme 
de la fonction de vraisemblance (3.75) converge en probabilité vers 
la fonctionnelle 


T a |, 
InZ[:(t)} = 2 Re | v&[z (Os (#) | de. (3.78) 
ST 


Lorsque la série (3.76) est divergente, le logarithme du rapport 
de vraisemblance (3.75) tend vers oo pour l'hypothèse H,, et 
vers — o pour l'hypothèse F1. 

3.4.6. Bruit blanc normal. Cherchons à trouver à titre d'exemple 
l'expression explicite de la fonctionnelle du rapport de vraisemblan- 
ce, lorsque Ë (£) est un bruit blanc normal d'intensité W, par unité 
de bande (cf. $ 3.4.4). La fonction de corrélation d’un bruit blanc 
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A 


étant 
B (4, u) =N,ô (t — u), 


en vertu de (3.58) on a 
NoV(e) = S!; (£) _ So). (3.79) 


On obtient alors à partir de (3.61) l'expression de la fonctionnelle 
du rapport de vraisemblance pour le cas envisagé 
T 
1 e 
In l{x(t)] = A | [Si (£) — So(£)] x (£) dt — 


-T 
. 
— | 15: (t)—si(t)]dt. (3.80) 
=T 


Pour la fonction de corrélation d’un bruit blanc tous les nombres 
caractéristiques de l'équation intégrale (3.23) sont À = < [comparer 
avec (3.24”)]. La condition (3.68) peut alors s’écrire comme suit: 


ei (ar — dx)” <T ©. 


Or, la somme des carrés des coefficients a, — b, du développement 

suivant des fonctions orthogonales du processus déterministe so(f) — 

— 5, (t) sur l'intervalle (— 7, T) est proportionnelle (pour À = const) 
; 

à la grandeur ( [so (€) — s1 (t)l° dt. Ainsi, lorsque la puissance 

=T 

moyenne du processus déterministe se trouve limitée et le pro- 

cessus E (1) est un bruit blanc normal, en vertu de (3.68) on aura 

toujours le cas régulier. 


is 
2T 


3.5. VÉRIFICATION DES HYPOTHÈSES STATISTIQUES 
CONCERNANT UN PROCESSUS ALÉATOIRE NORMAL 


3.5.1. Remarques préliminaires. Nous allons maintenant étudier 
les stratégies de vérification des hypothèses sur les paramètres des 
processus aléatoires et leurs estimations, en étendant aux processus 
aléatoires les méthodes exposées dans les chapitres précédents pour 
les variables aléatoires. Lorsque les résultats des observations d’un 
processus aléatoire sont donnés par un échantillon (discret) de taille 
finie, tout ce qui est utilisé pour obtenir des conclusions statistiques 
sur les variables aléatoires peut être immédiatement appliqué aux 
processus aléatoires. C’est pourquoi dans ce qui suit nous nous 
efforçons à montrer comment sont construites les statistiques déter- 
minant les stratégies et les estimations quand le résultat des obser- 
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vations est non pas un échantillon discret mais une réalisation 
continue (ou plusieurs réalisations) du processus aléatoire. 

3.5.2. Vérification de l'hypothèse sur la moyenne d’un processus 
aléatoire normal. Nous allons commencer par le cas de vérification 
de l'hypothèse simple A, selon laquelle la moyenne d'un processus 
aléatoire normal E (t) de fonction de corrélation *) B (ft, u) donnée 
est égale à so (t), contre l'alternative simple A, que cette moyenne 
est s, (t). Supposons tout d’abord que la fonction de corrélation 
du processus est définie positive ce qui signifie que l’ensemble 
correspondant des fonctions propres est complet (cf. $ 3.3.1). 

Comme nous l'avons déjà montré dans le premier chapitre, les 
différents critères de qualité conduisent à une même procédure 
de prise de décision: à partir d’un échantillon (discret) de taille 
donnée on calcule le rapport de vraisemblance et l’on adopte ou l’on 
rejette l'hypothèse H, suivant que ce rapport est supérieur ou non 
à un certain seuil, dont la grandeur dépend du critère de qualité 
établi à l'avance et ne dépend pas de la taille de l'échantillon. 

Par conséquent, pour vérifier l'hypothèse sur la moyenne d'un 
processus aléatoire normal, on peut utiliser la stratégie formulée 
au $ 1.3, en remplaçant le rapport de vraisemblance par la fonction- 
nelle du rapport de vraisemblance (3.61) dont le logarithme est 
dans le cas régulier borné en valeur absolue. Ainsi, on a la stratégie 
suivante : si pour la réalisation x (t) observée sur l'intervalle (— T, 
T\ona 


T T 
RACE dt>Inc+— | V)Is(+si(0ldt=hkr, (3.81) 
ST ST 


on adopte la décision y, (l'hypothèse F, est acceptée). si c'est l’iné- 
galité inverse de (3.81) qui est vérifiée, on adopte la décision ÿ 
(l'hypothèse H, est rejetée). Dans la formule (3.81) la grandeur c est, 
suivant le critère adopté, choisie dans la table 1 et la fonction V (+) 
est la solution de l'équation intégrale linéaire non homogène (3.58). 

On peut facilement trouver l'expression des probabilités condi- 
tionnelles des erreurs. En effet, à partir de (1.11), (1.12) et (3.81)on a 


T 

a P{y|Ho}= P À | V(t)z(#) dt> kr |so()} , (3.82) 
= 

B—P{vl = P À \ V()z (dt <kr|a (0). (3.83) 
=T 


Comme z (t) est une réalisation d'un processus aléatoire normal, 
l'intégrale dans le premier membre de (3.81) est, pour un T donné, 
une variable aléatoire normale, les moyennes, les seconds moments 


*) On suppose ici que B (t,u) — ms {[E (4) — ms {E (4) JE (ue) — ms (E (u)}]}. 


12—06$S2 
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et les variances de cette variable aléatoire étant respectivement 


Mio = M, { V (4) x (t) dt| Ho} = f V(t)so(t)dt, (3.84) 
Tr ZT 
My = M: { (vozoæn) = (ro (t)dt, (3.84) 
ST ST 
m, {(Lrozoa) 1) = 
T T 
= M, al LMCECUCEC di du | Ho] = 


T T 
= | [ V (G)V(u)[B(4, u)+ so(t) so (u)] dt du 


SET 
T T 
= [ros-sUid+([vVosta), (3:85) 
-T -T 
H à T 
m, (({ro-wa) \'I } = Î V (4) [si (6 — 50 (2)] dt + 
T 
+ | | Vs), (3.85’) 
CT 


c'est-à-dire ; 
di = Ma { [ V()z(@dt| Ho} = fs { [ AOPOLILOE 
2 


T 


_ | V(OIs()—s0()]dt= mm. (3.86) 


ST 
D'où *) [cf. les formules de (3.81) à (3.86) 


a=- Le | exp[ En | dy - 
T V2 Mint ‘ 
in C+ 


[ exp{(—t/2]d=1—F ( d + +) à (3.87) 


Inc, dr 


d LE 


T 
*) Notons également que les grandeurs mio, ms, dr tout comine 
T 


] 


Î V (t) x (t) dt sont sans dimension, ce qui découle de l’équation intégrale (3.58). 
ET 
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mi0+mMi1 


In rs — 
: 1 (y— m1)" . 
B — AVE VE | exp | — TE | dy = 
_ Inc dr 
_F = +). (3.88) 
Si l’on observe non pas une mais n réalisations indépendantes x; (t), 


i = 1, ..., nr, en vertu de (3.69) le domaine d'acceptation de l'hy- 
EU H, est donné par Nr | 


vofs a(]d>me+r+ vo +s war (3.89) 
2T 


i— | 


et pour trouver les probabilités conditionnelles d'erreurs on utilise 
les mêmes formules (3.87) et (3.88) en posant seulement 


dY=n ï V (4) ls: (4) — so (0)] de. (3.89) 


Les formules ci-dessus montrent que pour d; —+ oo la proba bilité 
d'erreurs tend vers zéro (consistance de la stratégie). 

Pour distinguer des hypothèses voisines, pour un T donné, é 
obtenir des valeurs acceptables des probabilités d'erreurs, il: faut 
un nombre suffisamment grand de réalisations indépendantes. 
Supposons, par exemple, que s, (ft) = a;s(t). et so (t) — aos{t).' 
En introduisant la notation 


T 
_ | V (&)s(t)dt, 
T 
on obtient alors à partir de (3.89°) 
= 00 p, (3.89) 


par conséquent, pour que . Stratégie reste consistante il faut que 
pour 27 —+ oo la grandeur -— décroisse plus lentement que =. 


Quand E (6) est un bruit blanc normal de densité spectrale No, 
la fonction V (4) est donnée par (3.79). En portant (3.79) dans (3.81), 
on obtient la stratégie suivante : on adopte la décision y, si 


T 
| [s1 (€) — so (£)] x (€) dt > Noln c++ Î 1st (£)—si(t)]dt. (3.90) 
CT —T 


En particulier, lorsque les processus so (t) et s, (£) ont même 
énergie sur l'intervalle d'observation et c — 1 (critère du maximum 


12” 
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de vraisemblance), l'inégalité (3.90) devient 
T T 
| a(t)z(t)dt> | so(t)z(t)dt. (3.90) 
=T 2T 
T 
La variance de la grandeur | V (t) x (t) dt, lorsque zx (t) cor- 


=T 
respond à la réalisation de la somme d’un bruit blanc normal et d’un 
processus déterministe, pour l’une quelconque des hypothèses (Æ, 
ou À,), en vertu de (3.86) est égale à 


T 
= j [sa (4) — 50 (#1 dt. (3.91) 


Montrons maintenant que dans les cas où l’ensemble des fonctions 
propres n'est pas complet on peut indiquer une stratégie assurant 
des probabilités d'erreurs nulles. Comme nous l’avons déjà mention- 
né, une telle situation (cas singulier) se présente si l’on renonce 
à l'hypothèse que la fonction de corrélation B (t, u) est définie 
positive et si l’on suppose que la forme quadratique (3.21) ou la 
forme intégrale (3.21) peuvent être nulles. 

Par définition, si le système de fonctions orthogonales {, (t)} 
n’est pas complet, il existe au moins une fonction w (t) orthogonale 
à toutes les ®@, ({). Autrement dit, pour # quelconque on a 


T 
| qu (é) p(#) dt =0 (3.92) 
=T 


Nous allons utiliser le développement orthogonal du processus 
aléatoire (3.30). Ecrivons sa réalisation sous la forme 


Vi 


pour l'hypothèse H,, et sous la forme 


r()=5 + m2, le, 
Rk=1 


Ç PA (1) e 
z(t)=s (4) + D x — , ||, 
k=! Vin 


pour l'hypothèse H.. 
Il découle de (3.92) que 
T 
| z(t)Ÿ wat { 


-T 


Co, pour l'hypothèse //,, 
0» P YP | 0 (3.93) 
C1, pour l'hypothèse 77;, 
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a 


ou 
T 


T 
= À so()b() dt, = IÉTCETOL (3.93°) 
T CT 
Si co Æ ©, on obtient à partir de (3.93) la stratégie absolument 
correcte (avec une probabilité égale à l'unité) 

T 


\ z(t)$(t)dt=0c 
2T 
pour l’hypothèse Æ7, et 


T 
EDIOLET 
=T 


pour l’hypothèse H,. 

3.0.3. Alternative composite. Nous allons maintenant passer 
à l'étude d’une alternative composite (comparer avec $ 1.4.1). 
Supposons que l'on vérifie l'hypothèse simple Æ, selon laquelle 
la moyenne du processus aléatoire normal E (f) envisagé au para- 
graphe précédent (3.5.2) est nulle, contre l'alternative composite H, 
que la moyenne appartient à l’ensemble des processus se (£) [ou dans 
le cas particulier s (1; d)], Ÿ pouvant être un nombre réel quelconque 
(ou se trouver dans certains intervalles de l’axe réel). 

Nous allons commencer par la stratégie de Bayes. Dans ce cas 
il faut se donner les probabilités a priori g et p — 1 — q pour que 
m; {E (t)} = 0 et m, {E (t)} = so (€) et la densité de probabilité 
a priori w, (Ÿ) du paramètre Ÿ. En prenant la moyenne du rapport 
de vraisemblance sur le paramètre aléatoire Ÿ pour l'échantillon 
discret de coordonnées non corrélées x, ..., x, on trouve [cf. 
(1.110”) et (3.62)] 


A (Ti er TX) = Î exp Li ÉTOET TO) uw, (Ÿ) dŸ, 


h=1 


(3.94) 
où 
T 
Th = V/ Ar | x(t) pr (t) dt; (3.95) 
5 
bi (0) = V7 | so (£) on (£) dt : (3.95') 
SF 


Àns Pn (&) étant les nombres caractéristiques et les fonctions propres 
de l'équation intégrale linéaire homogène (3.23). 


Comme précédemment, si la somme 2 Andi (0) est finie, la 
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limite 


: 
lim 2 V'hubn (8) pa ()=V(t; 8) (3.96) 


N-°00 h: 


existe, la fonction V (ft; Ÿ) étant donnée par l'équation intégrale 
linéaire non homogène 


T 
| BG, u)V(u; 8)du=so(t), [LIT (3.97) 


-T 


Dans ces conditions le rapport moyen de vraisemblance converge 
en probabilité vers la fonctionnelle 


A [x (0)] = { exp { V (.; 6)[r(—- 2° | dt} u(8)d8. (3.98) 
=T 


— ©œ@ 


En utilisant (3.98) on arrive à la stratégie de Bayes minimisant 
le risque moyen : adopter la décision y, (l'hypothèse 77, est rejetée) 
si pour la réalisation observée on a 


co T 
je (yves o)[z (#2 | dt} w, (8)>c — 


_ 4 Hoi oc 
 p Iio—lln ? 229) 


et la décision Yo (l'hypothèse À, est acceptée) si c’est l’inégalité 
inverse de (3.99) qui est vérifiée [cf. (1.109)]. 
Dans le cas où sg () = a (8) s (£) est un processus quasi déter- 


ministe d'amplitude aléatoire, la fonctionnelle (3.98) du rapport 
de vraisemblance peut s'’écrire comme suit: 


oo T 
Afx(t)]-— | exp| a (9) [x V(d— 
Re CT 


T 
te fs@vVEa]u(s)d8, (899 
—T 


où V () est la solution de l'équation intégrale 
T 
| Bt, u)V(u)du=s(#, |t1<T. (3.100) 
Tr 
Considérons maintenant le critère de Neumann-Pearson. Des 


raisonnements analogues permettent d'obtenir pour Ÿ quelconque 
l'expression suivante pour le logarithme de la fonctionnelle du 
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rapport de vraisemblance : 


T T 
In 2 [x (01 = | V (4; B)z(t)dt— + | V(£: 8)so(t)dt. (3.101) 
be -T 


Pour Ÿ donné, le domaine critique où l'hypothèse 77, est rejetée 
est défini par l'inégalité 
T 
| V4; d)z(t)dt > K(6), (3.102) 
2T 
où À (Ÿ) est obtenu à partir de la valeur de la probabilité d'erreur 
de première espèce. En vertu de (3.102) pour que le critère unifor- 
mément le plus puissant existe (cf. $ 1.4.4 et 1.4.7), il faut que 


Se (t) = & (8) s (1), (3.103) 
l'amplitude a (8) ne changeant pas de signe. Si a (8) > 0 la stra- 
tégie se formule comme suit : l'hypothèse A, est rejetée si pour la 
réalisation observée zx (t) on a 

T 

À V{t)r(@d>K, (3.104) 

6 
où V'(t) est donné par l'équation intégrale (3.100). 

Comme dans le cas d'authenticité de l’hypothèse /7, on a 


T 
m, { Î V (4) z(t) dt} — 0, 


T T 
M { | V (t)z(t) dt} = Î V (t)s (2) dt = dé, 


-T 


et comme l'intégrale dans (3.104) est répartie normalement, il 


vient 
T 


TAMETIES 
P ([VO:O#>KIR) -1-F (+) (3.105) 
et par conséquent, pour une probabilité & d'erreur de première 
espèce donnée [comparer avec (1.76)] on a 
A —— drTos (3.105) 
où z, est un quantile de la loi normale. 
Si a (ÿ) < 0, l'inégalité (3.104) est remplacée par 
T 
| V(t)z(t)dt<—K. (3.106) 


—T 
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Ainsi le critère (3.104) est uniformément le plus puissant pour 
l'alternative composite pour laquelle a (#) > 0, tandis que le cri- 
tère (3.106) l’est dans le cas où a (Ÿ) << 0. Si, au contraire, on prend 
pour alternative composite toutes les valeurs réelles de l'amplitude 
a (Ÿ), le critère uniformément le plus puissant n'existe pas. 

La fonction de puissance pour le critère (3.104) s'écrit comme 
suit : 


1—B(È)= P { Î V (t) z()d>K|I) = 
2T 


=1—F (5 —a(d)dr). (3.107) 
Pour a (d) > 0,1 — B (8) > « la fonction de puissance croît d’une 
manière monotone au fur et à mesure de l'augmentation de a (). 
Mais si a (0) << 0, on a 1 — B (Ÿ) < & et la fonction de puissance 
tend d’une manière monotone vers zéro lorsque | a (Ÿ) | croît indé- 
finiment. Par conséquent, si le domaine des valeurs possibles de 
a (Ÿ) s'étend à tous les nombres réels, le critère (3.104) est sans 
biais. 

On peut montrer [2] que, tout comme dans le cas discret étudié 
au $ 1.4.7, le critère uniformément le plus puissant non biaisé 
qu'on peut construire à partir de la réalisation observée, est donné 
par la relation suivante: 


T; 
| [rOvol>k (3.108) 
ET 

3.9.4. Processus à spectres énergétiques en forme de fraction 
rationnelle. L’exposé des paragraphes précédents montre que la 
difficulté essentielle de recherche des critères de vérification de 
l'hypothèse sur la moyenne d’un processus aléatoire normal est 
liée à ce que la relation du critère en question avec la fonction 
de corrélation donnée B (t, u) du processus n’est pas explicite, mais 
exprimée par l'intermédiaire de la solution V (t) de l'équation 
intégrale linéaire non homogène (3.58). La solution de cette équa- 
tion est dans le cas général inconnue, parfois on peut l'obtenir au 
prix de calculs forts compliqués, et évidemment il reste toujours 
la possibilité d'utiliser les méthodes numériques. Seul fait excep- 
tion le cas où le processus normal se présente sous la forme de la 
somme d’une fonction déterministe et d’un processus aléatoire 
normal stationnaire E (t) de moyenne nulle et dont le spectre énergé- 
tique F: (w) est une fraction rationnelle de la forme 

Q (w) 
F: (0) = Po) ? 

où Q et P sont des polynômes de degrés m et n respectivement 
(m << n). Le processus E (t) est alors la composante d’un processus 
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markovien normal multidimensionnel (cf. $ 9.5.1, tome I). Dans 
le cas mentionné l'équation intégrale (3.58) se réduit à une équation 
différentielle ordinaire à coefficients constants et sa solution peut 
être écrite sous forme explicite (cf., par exemple, [3], annexe Il). 
Considérons le problème de la vérification de l'hypothèse simple 
H, suivant laquelle la réalisation observée appartient au processus 
E (t) + so (té) contre l'alternative simple H, qu'elle appartient 
à E (€) + 51 (€), à condition que E (ft) soit un processus markovien 
normal stationnaire. Dans ce cas, comme nous l’avons déjà noté 
au $ 4.5.4 du premier tome, le spectre énergétique du processus est 
FE: (©) — —_ er 


1202 ? 


et sa fonction de corrélation 
B (x) = o“e-#lTil, p > 0. (3.109) 


La solution de l'équation intégrale (3.58) dont le noyau est 
du type (3.109) s'écrit comme suit: 


VO = ar tlusa(—T)—5$ (— TN 84 T)+ 
+ Qusa(T)—sà (TO (—T)+psa(#)—sà (0). [4IST, (3.110) 


sa (t) = Si (#) — 50 (t). (3.110) 
En portant (3.110’) dans (3.81) et en introduisant la notation 
Sy (£) = Si (£) + So (6), (3.110”) 


pour la somme des fonctions déterministes, on peut alors formuler 
la stratégie comme suit : adopter la décision y, (acceptation de l’hy- 
pothèse H,) si pote la réalisation x (£) du processus, observée sur 
l'intervalle (— T on on à 


És ETS DES EN) 


IEUE 
T 


+ [20 [sa(0- 


sa (#) 


|d>20%nc+ ++ {[sat—7) - 


Sa (—T) | SA (T) 
—— }ss(-7)+ [sa (7) 


T 


Lu | sx (?) [sa — 5) dt | .. (8.410 


-T 


ss (7)+ 
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Les probabilités conditionnelles d'erreurs de première et de 
seconde espèces sont données par la grandeur cf. (3.87) et (3.88)] 


à 1 Sa (—T): 
dr (fe [nt 
T 
sa (T)- 3 (0) 
NS EN) EN OES ENOE EE 
-T 
T 
{ : à ° 1 a 
= 1 COUT TUE | (5 @ + dt}. (3.112) 
-T 
T T 
Si pour 7 Sion a a" D 1 et se eg on obtient 


à partir de (3.111) et (3.112) les expressions asymptotiques suivantes, 
vraies pour un temps d'observation suffisamment long: 


"| 0 [ sa (0 — 3 0 ]dt>20%Inc+ 
++ la @[ a0 |d, (3.113) 
T 
Î {à C++ {si @r} dt. (3.144) 


Dans le cas où, pour t quelconque, les fonctions so (t) et s; (t) 
sont constantes, c’est-à-dire si 


So () = 0, 4 () = &, (3.115) 


le problème envisagé se réduit à la vérification de l'hypothèse sur 
la grandeur de la moyenne d’un processus aléatoire normal dont 
la fonction de corrélation est de la forme (3.109). Les dérivées des 
fonctions So (t) et s, (t) sont alors identiquement nulles et à partir 
de (3.111) on arrive à la conclusion suivante : la moyenne est égale 
à a, si 


T 
z(—T)+zr(T)+u ETUI — In 6 (a+ ao) (1+HT), 
L (3.116) 


avec 


(a; — ao)* 
dr == 2 (1 + uT). (3.117) 
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Si 7 S1Â on a les relations asymptotiques 
T 


(—T) L.. (T) L se 5e 4 Q 
+7 (our, (3.118) 
2T 
la grandeur dÿ augmentant proportionnellement à uT 
dé (Le) ur. (3.118) 


3.5.5. Vérification d’une hypothèse sur la fonction de corrélation. 
Soit à vérifier l'hypothèse A, selon laquelle la fonction de corréla- 
tion d’un processus aléatoire normal E (t) de moyenne nulle *) est 
égale à B, (t, y). contre l'alternative A, que cette fonction de corré- 
lation est égale à B, (t, y). Si l’on prend pour coordonnées du proces- 
sus E (t) les variables aléatoires Îcf. (3.25)] 


T 
BV | EG) ot), (3.119) 
2T 


où À, et 4 (t) sont les nombres caractéristiques et les fonctions 
propres de l’équation intégrale 
T 
p(£) = À \ Bit, u)q(u)du. |t|<7, 


-T 


ces coordonnées ne sont pas corrélées si c’est l'hypothèse 77, qui 
est vraie et corrélées si c’est l’hypothèse FH, qui est vraie. 
Cependant, on peut choisir les coordonnées du processus de telle 
sorte qu'elles ne soient pas corrélées (et, par conséquent, indépen- 
dantes, la répartition étant normale) tant pour l'hypothèse FH, que 
pour l'hypothèse F,, avec cette seule différence que pour l’une des 
hypothèses les variances de toutes les coordonnées sont égales à l'uni- 
té, et pour l’autre, elles diffèrent pour différentes coordonnées. 
Ce cas est analogue à un résultat bien connu en algèbre supérieure 
en vertu duquel on peut, par une seule transformation linéaire, 
ramener l’une forme quadratique à une forme normale (c’est-à-dire à la 
somme des carrés des variables) et une autre, à une formecanonique **). 
Supposons que les coordonnées du processus £ (t) soient données 
par (3.119), À4 et ox (t) étant les nombres caractéristiques et les 


fonctions propres (non normées) de l'équation intégrale 
T 


| Bic, u)— Bolt, u)lq(u)du=0, It|&T, (3.120) 


ST 


*) Il est facile de généraliser les résultats de ce paragraphe en supposant 
ue la moyenne du processus est différente de zéro [12]. Le problème 1.6 est 
l'analogue discret de ce problème. 
**) Voir, par exemple, A. Michina et I. Proskouriakov. À /gèbre supérieure 
(en russe). Physmathguiz, 1962, pp. 162 à 164. 
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la normalisation des fonctions propres étant effectuée par rapport 
à Bot, y), c’est-à-dire que l’on a 


TT 
1, k=m, k 
À Î ÿ 8 U) Pr ({) Pm (u) dau = | 0 bee (3.120") 
On a alors 


T 
ms LEnËn | Ho} = V Km QT Bot, ü) Qu (£) Qu (u) dt du — 


1,k=m, 
= | (3.121) 


0,kÆm, 
TT 
My (EnEm | H1} = Vhikm | | B;(t, u) px (?) Pm (4) dt du = 
D . Àk k=m, 
= }n V ÀAnÂm Bt, u) qu (it) Pm(u) dt du= { _ (G. 121”) 
dust: o.hm 


En utilisant (3.121) et (3.121) il est facile d'écrire le logarithme 
du rapport de vraisemblance pour V coordonnées indépendantes 
Ti, - - -, TNA Observées d'une réalisation d’un processus aléatoire 
normal stationnaire, soit : 


N N . 
1 1 T} à 
nn ni dE D 0e 


où en vertu de (3.119) 


mm = Vu À (0) qu (8) de, (3.122") 


ST 


À4 et x (t) étant les nombres caractéristiques et les fonctions pro- 
pres de l'équation intégrale (3.120), et x (4) la réalisation d’un pro- 
cessus aléatoire normal observée sur l'intervalle (— T, T). 

En portant (3.122) dans (3.122) et en passant à la limite pour 
N — co on obtient l'expression suivante pour le logarithme de la 
fonctionnelle du rapport de vraisemblance : 


oo T co 
In fz(=+ D Gif {ro @a + S'inA. (3.123) 
hk=1 2T | R==1 
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On peut maintenant formuler la stratégie : si pour la réalisation 
x (t) observée sur l'intervalle (— T, T) on a 


co T 00 
DCR ETOL TOI F>2inc+ Sins. (3.124) 
h=1 ‘er | hk=1 


on adopte la décision y, (l’hypothèse F7, est vraie), et si c’est l’iné- 
galité inverse de (3.124) qui est vérifiée on adopte la décision Yo 
(l'hypothèse /Z, est vraie). Comme d'habitude, le seuil c est choisi 
conformément au critère de qualité adopté (voir table 1, page 35). 

Pour trouver les probabilités d'erreurs, il y a lieu avant tout 
de calculer la répartition du logarithme de la fonctionnelle du rapport 
de vraisemblance (3.123). Bien que In L [x (t)] soit une somme infi- 
nie de variables aléatoires indépendantes nt 2h — + In À, la 
répartition de cette somme n'est pas normale car la condition ren- 
dant applicable le théorème limite de Liapounov ne se trouve pas 
remplie [cf. (3.144), tome I]. Pour trouver cette répartition nous 
allons utiliser la méthode des fonctions caractéristiques. Ainsi, 
comme zx, est une variable aléatoire normale, les fonctions caracté- 
ristiques unidimensionnelles de la k-ième composante de la somme 
pour les hypothèses H, et H, sont respectivement [cf. (9.16), tome I] 


iv 
— 1 PRE x In AR 
Æ — iv (1) 
ÂR 
1 ing 


V1— iv (An —1) 


Les variables aléatoires z, étant indépendantes, les fonctions caracté- 
ristiques unidimensionnelles du logarithme de la fonctionnelle du 
rapport de vraisemblance sont données par le produit des fonctions 
caractéristiques (3.125) et (3. 125") 


O\(v| 0) = [I 6-4) À 


un (v| Ho) = (3.125) 


Ein (v| H1) — (3.125') 


X exp {+ In [I (1 +—)} , (3.126) 
en 


&1#)=[Î] (1 +) | 7 x 


k=1 
xexp {in [[ (1+-—)}. (8.126) 


k==1 
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avec 
1 ” 
SL EN VS (3.126 ) 


On peut maintenant, par transformation de Fourier inverse, 
trouver les densités de probabilité et les fonctions de répartition 
du logarithme de la fonctionnelle de rapport de vraisemblance, 
bien que les calculs soient en général très ardus. 

Arrêtons-nous encore sur le cas où l’on connaît le coefficient 
de corrélation ÆR (t) d'un processus aléatoire normal stationnaire 
et où l’on a à vérifier seulement l’hypothèse À, que la variance est 
égale à 0% contre l’alternative A, qu’elle est égale à 0°. Dans le cas 
envisagé, on a Bot) = oËR (t), Bi (x) = o°R (rt). Introduisons 


la notation (a) ” = yet supposons que u 1. On obtient alors 


à partir de (3.120) 
(u®— À) | R(t—u) q({u) du =0, (3.127) 
2T 


donc les nombres caractéristiques À, de l'équation intégrale sont 
constants et égaux à u°. En vertu de (3.122) le logarithme du rapport 
de vraisemblance peut s'écrire comme suit: 


N 
1 1 2 ° 
In l(x:, 7 Tx)= + (1 —-7) 2 nu , 
et, par conséquent, 


1 
re su. nr +) lim — > zh —ln up — 


No N—00 — 
; (u° 


) —Inu<O, pour | on. H,; 
(3.128) 


- _ Ke 


—1)—Inu>0, pour l'hypothèse H,, 
1 N 
car la suile des variables aléatoires 24 = 7 2 x, converge en 
k= 


probabilité vers l'unité *) pour l'hypothèse AH, el vers u° pour 


*) Notons que le théorème de Liapounov est applicable pour la somme :,, 
alors pour Ÿ — oo on a 


1 1 
Winx) -— VE LAETS XP {- DIU PEETS SELS Exje}, 


avec ms {x | Ho} = 1, mi {2x | Hi } = pà, M2 {2x | Ho } — Ÿ ' 


e 
vw 


DU? 
Ma {x | Hi} — +. A la limite on a lim Wi (24) = 8 ( — ms {5} 
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l'hypothèse Z7,. En vertu de (3.128) on a pour l'hypothèse H, 


lim Inl(z,, ...,zy)—= —o, (3.129) 
N—00 
et pour l’hypothèse AK, 
limlnl(z,, ..., zx) = oo. (3.129) 
N—00 


Ainsi, le cas envisagé est singulier, on peut donc, avec une 
probabilité égale à l'unité, choisir pour un intervalle de temps 
d'observation arbitraire (aussi petit que l’on veut) la stratégie 
de vérification de l'hypothèse. Cette stratégie découle immédiate- 
ment de (3.128) si l’on substitue aux coordonnées z, leur expression 
(3.122”) en fonction de la réalisation observée. Si pour la réalisation 
x (t) observée sur DU due (— T,T) on a 


lim 3 in ( ( z(t)qu (dt) —1, (3.130) 
N—00 - Cr 

on accepte L'hypothèse H o (la variance du processus est égale à 05) 
et si la limite dans (3.130) est égale à u°, on accepte l'hypothèse H, 
(la variance du processus est égale à 0°). 

3.9.6. Cas où l'hypothèse vérifiée se rapporte à un bruit blanc. 
Considérons un cas particulier du problème général exposé au para- 
graphe précédent. Supposons que l’on vérifie l'hypothèse suivant 
laquelle E (t) est un bruit blanc normal de densité spectrale W, 
contre l'alternative que c’est un processus aléatoire normal et que 
sa fonction de corrélation est égale à B (#, y) — NÔ (t — y). Nous 
allons montrer que dans ce cas on peut remplacer dans (3.124) la 
sommation par l'intégration des réalisations pondérées par une 
fonction de pondération dépendant de B (t, y). 

Dans ce cas l’équation intégrale (3.120) s'écrit comme suit: 

T 


No(A— 1) p(t) — | B(t, y)p(y)dy, [tI<T, (3.131) 


la normalisation étant obtenue par division par Y A4V, de chacune 
des fonctions propres , (4) [cf. (3.120")]. Introduisons la notation 


—— qu (4) qu (), (3.132) 


LS 


h{,y)= D * 
h--1 
où x (t) sont des fonctions orthogonales et normées. Le premier 
terme dans (3.122) s’écrira Ve 
oo TT 
kr — 1 2 __ hr < 
Dai || CEUD A x 


k=1 -T-T 


T 
X Qu (£) pu ei | h(t,y)z(t)z(y) dt dy. (3.133) 


TT 
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Puis à partir de (3.132) on obtient 


j [B (4, y) + Noô (t— y)] À (v, y) dy — > 
= { 


«[ LB, 1) ab (E—v)] quo) dy = D} Ne Ga — 1) qu (0) X 
k=1 
X pr () = B (4, v). 


Par conséquent, la fonction de pondération À (£, u) satisfait 
à l'équation intégrale 
T 


L qu (v) x 


[ BEA, Ddy+Nh(v, D=B( 0), [HIT |vI<T. (8434) 


-T 


L'équation intégrale (3.134) est un cas particulier (pour u = 1) 
de l'équation plus générale 
T 


u | Bt,y)h(v,y,u)dy+Nih(v,tu)=B(t,v), [tIST, [ol KT 


2T 
(3.135) 


par rapport à la fonction k (v, t, u) appelée résolvante. Pour la résol- 
vante on a le D 


h(t,y.u)— > RE mn (£) qa (y), (3.136) 


donnant (3.132) ee u — : En vertu de (3.136) on à 


kk—1 , 
( RE. Ë, LD) RTE (3.136") 
2T 

d’où par intégration sur la un u de zéro à l'unité on obtient 

iT 


| | h(t,t, gate | (> ri) du — 


0 —T 
= 2 [+ Â+z => In An. 


Ainsi, le second terme dans le _… el de 8125 est 
dans le cas ee égal à 


T 
3 In = ( Î h(t, t, u) di du. (3.137) 


D —T 
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En portant (3.133) et (3.137) dans (3.124) on obtient la stratégie 
suivante de vérification de l'hypothèse FH, selon laquelle la réali- 


sation observée appartient à un bruit blanc: l'hypothèse H, est 
rejetée si 


1 
6 | ju nz(zQéta>2inc+ | 2 (,t, u)dtdu, (3.138) 


où h (t, y) et hk (t, y, u) sont respectivement les solutions des équa- 
tions intégrales (3.134) et (3.135). 


Pour trouver dans ce cas les fonctions caractéristiques du loga- 
rithme du rapport de vraisemblance nous allons utiliser les formu- 
les (3.126) et (3.126”). A cet effet introduisons tout d'abord la fonc- 
tion In D (2) égale à l'intégrale de (3.136”) sur u prise de zéro à z, 
c'est-à-dire 


T 
In D(:)= h(t,t,u) dt du = 
n D(:) DEL t,u) dt du 
=Y In(1+2)=1In ] (1+2) (3.139) 
R—1 k--1 
ou 


D (z) = exp {( h(t,t,u) dt du | = [I (1+2) + (3.139) 
0 ©T k=:1 


ici v, est donné par (3.126''). 
En utilisant (3.139) et (3.139”) on obtient les expressions cher- 
chées pour les fonctions caractéristiques [cf.f (3.126), (3.126”)] 


CCE PES 74 D pa exp{—#mD(1)}, (8.140) 


Si 1H) = ———— 


TEE exp{_—SimD({)}. (8440) 


Les probabilités RE d'erreurs de première et de 
seconde espèce relatives à l’utilisation de (3.138) sont 


= 0 ie {—iv{z+1n Y D(1)]} ddr, 
(3.141) 
Inc oc 
= exp{—iv[z+in VD(N]} dvdr. (3.141) 
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3.5.7. Généralisation aux processus à spectres énergétiques en 
forme de fraction rationnelle. On peut appliquer les résultats du 
paragraphe précédent au cas où l'hypothèse vérifiée et l'alternative 
se rapportent à des processus aléatoires normaux dont les spectres 
énergétiques s'expriment par des fractions rationnelles (cf. $ 3.5.4). 
Pour que la relation (3.133) reste vraie il faut que la fonction de 
pondération » (t, y) satisfasse à l’équation intégrale bidimensionnelle 


T T 


FA ( | h (s, y) Bo(t—s) B;(y — v) ds dy — 


= Bit—v)—Bot—v), [EIRT, [v]&T, (3.142) 
où V, est un facteur constant (dimensionné). Pour B, (t — v) — 
= B(t—v) + NÔ(t—v), Bot — v) = N60 (t — v) l'équation 
(3.142) devient (3.134) (sous la condition que le processus soit sta- 
tionnaire et le spectre énergétique F; (w) rationnel). 

En introduisant la transformée de Fourier bidimensionnelle 


: 1 

de la fonction ALL (s, y) 

ps, y) = | | H (w, À) eits-0v) à du 

No 9 y J J , ? 
on peut écrire l'équation intégrale (3.142) comme suit (cf. [13]): 
œ oo 
| | H (w, À) Fo) F, (À) e-it-ue) dé dà — 
bd — Bi(t—v)— Bo(t—v), [t|T, |v|T, (3.142’) 
où Fo (o) et F, (w) sont les spectres énergétiques des deux processus 
aléatoires stationnaires normaux, Chacun d'eux pouvant s’écrire 
sous la forme 


__{ G(iw) |2 
F(e)=| re  * (3.143) 
toutes les racines des polynômes G (iw) et V (iw) ayant des parties 
réelles négatives et le degré du polynôme du numérateur n'étant 
pas supérieur à celui du dénominateur. 

Désignons par 


L(A, v)= | H (w, À) Fo (o) et do, (3.144) 


l'intégrale dans (3.142”) sur la variable w. Nous avons pour l’équa- 
tion intégrale (3.142”) 


Î L (A, v)F(o)e-ftd\ = B,; (£—v)— B;(t—v), 
L LEIRT, Ivl&T. (3.145) 
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Les équations (3.144) et (3.145) sont deux équations intégrales 
linéaires non homogènes du même type, se réduisant chacune à une 
équation différentielle linéaire (cf. [13]). On résout d’abord l'équation 
(3.145) en prenant la variable v pour paramètre, puis on trouve 
la solution de l'équation (3.144) par rapport à Æ (w, À) en prenant 
pour paramètre la variable 4. 

La stratégie générale exprimée par (3.124) s'écrit ici d'une ma- 
nière analogue à (3.138): l'hypothèse H, est rejetée si 

1: T 20 
_ | | ke yz(z(y)dtdy>2inc+ Sins, (3.146) 

°‘r2r h=1 
le premier terme du second membre de (3.146) dépend comme tou- 
jours du critère de qualité, la détermination du second terme con- 
duit à des calculs supplémentaires assez compliqués. Comme il est 
démontré dans [13], les grandeurs ô, = sont les nombres 


caractéristiques de l'équation différentielle suivante (écrite sous 
la forme opérationnelle) : 


Cf) (7) (Gr) (vo 


(Ha (Da (reve 


pour les conditions aux limites correspondantes. La solution géné- 
rale de cette équation est de la forme 


2N 


y(t) = à Cr Xp {£zr (Ô)}, 


où V est le degré du polynôme G, (io) V, (iw), et z, (ô) sont les 
racines du polynôme caractéristique correspondant à l'équation 
différentielle ci-dessus. Les constantes c,; sont données par le systè- 
me d'équations algébriques linéaires obtenues pour les conditions 
aux limites. Si D(ô) est le déterminant de ce système d'équations et 


D (6) 
Le 
o [] Ia (6) —2; (6) 

R>j 


le second terme du deuxième membre de l'inégalité (3.146) peut 
s’écrire comme suit [13]: 


D'un. (3.146') 
k= 1 


Notons que dans le cas envisagé, lorsque le spectre énergétique 
d’un processus aléatoire normal stationnaire (au sens général) est 


13% 
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une fraction rationnelle, fonction de la fréquence, est formulée 
la condition nécessaire et suffisante de singularité [1], (20] appli- 
cable lors de la vérification de l'hypothèse 4, d’après laquelle 
la réalisation observée appartient à un processus de spectre éner- 
gétique Fo (w) contre l'alternative H, qu'elle appartient à un pro- 
cessus de spectre énergétique F; (w). Cette condition s'écrit 


lim rs 1. (3.147) 


@—r00 


La règle singulière (3.130) *) formulée plus haut correspond au cas 
particulier de (3.147), où Fe —= 
du rapport de deux spectres énergétiques en forme de fractions ration- 
nelles est égale à l’unité, on aura toujours le cas régulier auquel cor- 
respondent les probabilités non nulles de décisions erronées. La con- 
dition suffisante de singularité est également l'existence d’un inter- 
valle fini de fréquences sur lequel au moins l’un des spectres énergé- 
tiques F, (w) ou F,(o) soit identiquement nul. Ainsi, le modèle 
mathématique d'un processus aléatoire à spectre énergétique limité 
(cf. $ 3.2.3) conduit à une singularité. 

Notons enfin qu'on aura toujours le cas régulier si (pour n’impor- 
te laquelle des deux hypothèses) le processus normal contient une 
composante additive sous forme d’un bruit blanc d'intensité égale, 
car la condition (3.147) de décision correcte lors de la vérification 
des hypothèses est basée sur la différence des parties H.F. du spectre 
énergétique. Comme le bruit blanc est présent dans tout dispositif 
réel (par exemple, bruits thermiques), le fait de l'ajouter élimine 
le paradoxe de singularité et rapproche le modele mathématique 
du processus physique étudié (cf. également [21]). 


u® = 1. Si pour w —+ oc la limite 


3.6. ESTIMATIONS DES CARACTÉRISTIQUES D'UN 
PROCESSUS ALÉATOIRE 


3.6.1. Estimation des paramètres de la répartition d’un processus 
aléatoire d’après sa réalisation. Dans ce paragraphe nous allons 
étudier un autre type de probabilités statistiques concernant les 
caractéristiques de la répartition d'un processus aléatoire d’après 
une réalisation de ce processus observée sur un intervalle de temps 
fini. Il s’agit de l'estimation des paramètres inconnus des fonctions 
uni- et multidimensionnelles de la répartition du processus aléa- 
toire. Tout comme au $ 3.5 nous avons étendu aux processus aléa- 
toires la théorie de la vérification des hypothèses statistiques d’après 
des échantillons discrets de taille finie, extraits d’une répartition 


*) Notons que la règle singulière (3.130) est vraie non seulement pour 
un spectre énergétique décrivable par une fraction rationnelle mais également 
pour tout spectre énergétique satisfaisant à la condition F; (©) = u?Fo (w)- 
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des variables aléatoires, nous allons donner ici une généralisation 
de la théorie des estimations des paramètres des lois de répartition 
des variables aléatoires (cf. $ 2.2). 

Au contraire des estimations des paramètres de la densité de 
probabilité d’une variable aléatoire, qui sont des fonctions de plu- 
sieurs variables des valeurs échantillonnées [cf. (2.14)], les estima- 
tions (statistiques) des paramètres 8,, ..., 0, de la densité de 


probabilité d’un processus aléatoire sont des fonctionnelles de sa 
réalisation zx (t) : 


D, — glz(b)l, i=1,...,m. (3.148) 


La consistance et l’absence de biais des estimations (3.148) se défi- 
nissent, comme aux $ 2.2.2 et 2.2.3, sous cette réserve que le cen- 
trage s'effectue non pas dans l’espace à dimensions finies des échan- 
tillons, mais dans l’espace fonctionnel des réalisations *). 

Les définitions ultérieures et les résultats de la théorie des esti- 
mations des paramètres des variables aléatoires sont liés à la fonc- 
tion de vraisemblance qui est la densité de probabilité d’un point 
de l’espace des échantillons [cf. (3.43)]. Comme nous l'avons déjà 
souligné à la fin du $ 3.4.1, la fonction de vraisemblance n’est pas 
bornée lorsque les dimensions de l’espace des échantillons augmen- 
tent indéfiniment. Ceci paraît être un obstacle à la généralisation 
formelle des résultats de la théorie des estimations, donnée au second 
chapitre, au cas des processus aléatoires. Pour surmonter cet obstacle, 
on introduit, pour construire la théorie des estimations des para- 
mètres des processus aléatoires, au lieu de la fonctionnelle de vrai- 
semblance qui n'existe pas, la fonctionnelle du rapport de vraisem- 
blance **) qui, dans le cas régulier, est positive et limitée [cf. (3.51)]. 

Ainsi, l'information de Fisher sur le paramètre estimé Ÿ conte- 


nue dans la réalisation zx (t) du processus aléatoire est donnée par 
la relation 


I(9)=m, (7 Inltz()181)}. (3.149) 


où m, est la moyenne prise sur l’ensemble des réalisations, 


et Z[x(t) | Ÿ] la fonctionnelle du rapport de vraisemblance pour 
une valeur donnée du paramètre. Le minimum de la variance de 
l'estimation est donné par l'inégalité généralisée de Rao-Cramer 


(cf. $ 2.2.5) see 
[1+ a] 


— 1() 


M,{0)> (3.150) 


*) Sur l'intégration dans l’espace fonctionnel voir, par exemple, I. Hel- 
fand et A. Iaglom, Zntégration dans les espaces fonctionnels. Uspekhi math. 
nauk, 1956, 1 (67). 

**) Pour plus de détails cf. [2] et [4]. 
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où le biais est égal à 
b (8) = m, {g [x (6)}]} — ©. (3.151) 


L'estimation pour laquelle il y a égalité dans (3.150) est appelée 
efficace. 

L'’estimation du maximum de vraisemblance du paramètre Ÿ est 
donnée par l'équation suivante Îcf. (2.54)]: 


dInt{{z(t)|# 
RTE ONÈL 2 0, (3.152) 


Si l'estimation efficace existe, elle correspond au maximum de 
vraisemblance, l'affirmation inverse n'étant en général pas vraie. 

Les estimations de Bayes peuvent être généralisées de la même 
manière. Si le paramètre Ÿ est aléatoire et si l’on connaît sa densité 
de probabilité a priori w, (0), on peut calculer la densité de proba- 
bilité a posteriori du paramètre Ÿ d’après la réalisation zx (t) du 
processus aléatoire 


Wi [8x (= AO ON (3.153) 
| wi(0)1[z(1)| 8140 
et puis calculer le risque moyen (risque de Bayes) 


R=m À | H(elz(1, 8) Wilôlz(ldô), (3154) 


— 00 


où II (Ë, 0) est la fonction de pertes (cf. $ 2.3.4)]. 
En introduisant la notation 
Jtelz@= | Ne, 2) Wil81z (0140, (3.155) 


on trouve l'estimation de Bayes Ÿ = g [x (t)] du paramètre Ÿ à par- 
tir de la condition 
3e = 0. (3.156) 

Les notions et les résultats ci-dessus peuvent tout naturellement 
être généralisés au cas des estimations simultanées d’un ensemble 
de paramètres Ÿ,, ..., Ÿ,. Nous donnerons ces généralisations 
plus bas, dans des problèmes concrets. 

3.6.2. Estimations du maximum de vraisemblance des paramè- 
tres d’une composante déterministe. Soit x (!) une réalisation observée 
sur l'intervalle (—7T, T) d'un processus somme du processus aléa- 
toire E ({) de moyenne nulle et de fonction de corrélation B (£, y) 
donnée et du processus déterministe s (4; 01, . .., 0), fonction des 
paramètres inconnus 0, ..., Ÿn- Cherchons à estimer les para mè- 
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tres inconnus 04, ..., Üm de la composante déterministe à partir 
de la réalisation observée x (t). A cet effet nous allons utiliser l’ex- 
pression du logarithme de la fonctionnelle du rapport de vraisem- 
blance (3.61) en posant s, (ft) = s(t; 01, . . ., mn), So (€) = 0: 
In L{[x(#)| 01, ..., On] = 

T 


e ( V (4: Du... Om) ÉCETR 7 ….s Om) | dé, (8.157) 


2T 
où P (t'est la solution de l'équation intégrale linéaire non homogène 


T 
f B(t,u)V(u:; 0, ..., Om)du=s(t; 0, ..., Om), [EI LT. (3.158) 
-T 


En prenant pour critère de qualité des estimations Ÿ;, . .., Ühn 
des para mètres inconnus le maximum de la fonctionnelle du rapport 
de vraisemblance, on trouve à partir de (3.157) un système d’équa- 
tions auquel ces estimations doivent satisfaire : 


É) ë 
36, IT ()1 0, -.., On] = 0, i—1,...,m, 


ou 
T à 1 | 
| 36: VU; V1, se. Ùm) ECG Ÿ1, …., dm) | d— 
: | F () 
3 | V (3 a, ..., Om) gr SU: nr .., Üm)dt=0. (3.159) 
T 
Mais en vertu de (3.158) on a 
T T 
| V'(t: 4, ++ Êm) 397 5 6: 9, ..., Üm) dt == | V (E: 01, 
2T " —T 
| : | | 
es 0m) [ | Bu) 35 Vi ds, ..., Un) du | dt = 
TL _ T 
e | a VUid, Om) [ B{t,u)}V(#: 0, ..… Om) dt | du — 
=T -T 
= | 55 V (u: Di, e.., Om) S(U:; Di, -.., Om) du. (3.160) 
=T 
Portons (3.160) dans (3.159), il vient finalement 


T 


| VU: Ü1, ss ÙÜm) [z(t)—s(t; LIT ÉR. Üm)] dt = 0, 


i=1,...,m. (3.161) 
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En résolvant le système d’équations (3.161) par rapport aux 
inconnues V1, .- . ., Üm, On peut trouver les estimations condition- 
nelles de ces paramètres Ÿ, = glz (#)}, i = 1,..., m satisfaisant 
au critère adopté du maximum de vraisemblance. 

On peut facilement généraliser le système d'équations (3.161) 
du maximum de vraisemblance au cas de la représentation complexe 
des processus. En utilisant (3.78) on obtient 
iT 
| Fo VE: D, ..., Um) (20) — 503 Unes Om di 
=T 

T 


fe | 5 VE On es Um) Die. Um)[z(4)—5(4; D, ..., Om) dt —0, (3.161°) 


où V'(t; 0, ..., 0) est la solution d’une équation intégrale du 
type (3.77). 

Si le processus E£ ({) est un bruit blanc de densité spectrale N;,, 
on a en vertu de (3.158) 


V(t: D, .., Bn) = yes (£: 01, ..., 0m) (3.162) 
et le système (3.161) se simplifie 
T 
| os: LE ES | ÙÜm) [x ()—s(E#; Ü1 et ÙÜm)] dt=0, 


ES (3.163) 


Dans le cas particulier d'un seul paramètre inconnu Ÿ, pour 
m = 1 la formule (3.161) devient 


T 
| PCI (z ()—s(t; d)] dt = 0, (3.164) 
2T 

et pour un bruit blanc la formule (3.163) s'écrit 
T 
| BG pe (9—s(E; 8) dt =0. (3.165) 
2T 


3.6.3. Estimation de l'amplitude. A titre d'exemple nous allons 
étudier l'estimation de l'amplitude du processus déterministe as (é). 
L'équation du maximum de vraisemblance (3.164) donnant cette 
estimation s'écrit comme suit: 

T 
| V (t) [x (t) — as (#)] dt = 0. 


-T 
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T 

Ÿ Vtt)z(t) dt 


a = 5 —, (3.166) 
\ V)s(t)dt 
-T 


Ÿ (t) étant en vertu de (3.158) la solution de l'équation intégrale 
linéaire 


T 
| B(t,u)V(u)du=s(t), |é|<T. (3.167) 
-T 


L’estimation du maximum de vraisemblance de l’amplitude d’un 
processus déterministe noyé dans un bruit blanc normal est obtenue 
en portant (3.162) dans (3.166) pour m = 1, il vient: 

T 

Î s(t)z(t)dt 

Ge = 7 ——. (3.168) 
\ s® (1) dt 
=T 


Notons que pour s (t) = 1 il découle de (3.168) 


T 
= | z (t)dt, (3.169) 


-T 


c’est-à-dire qu’on obtient l'estimation d’une moyenne constante a en 
prenant la moyenne dans le temps de la réalisation observée sur 
l'intervalle (—T, T). Par analogie avec le cas discret, on appelle 
parfois l'estimation (3.169) moyenne arithmétique. 

Introduisons la notation 


h (9) = ——70 (3.170) 
\ Vé)s(t)dt 
T 
L'estimation (3.166) s’écrira alors comme suit: 
T 
a = | h(t)z(t) dt. (3.171) 
ST 


Par conséquent, l'estimation du maximum de vraisemblance de l’am- 
plitude de la composante déterministe s'obtient par intégration 
pondérée, sur l’intervalle d'observation, de la réalisation du proces- 
sus aléatoire, le poids dépendant de la forme de la composante déter- 
ministe et de la fonction de corrélation du processus. De telles 
estimations sont dites linéaires. 
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Nous allons étudier maintenant les propriétés de l'estimation 
(3.171). Avant tout il est évident que cette estimation est absolu- 
ment correcte (non biaisée). En effet, ayant fixé T, on a de (3.170) 
et (3.171) 


T 
m, {a} = Î h(t)mi{x (t)} dt = a j h(bs(t)dt=a, (3.172) 
IT 
car m, {xt (t)} = as (t). 
La variance de l'estimation & est égale à 
M; {a} = ms {(a —a)?} — 
T 


T 
_ | | h (4) h (u) ma {[z (t) — as (1)] [x (u)— as (u)]} dt du = 
TT 


T T 
= | | h(é)h(u)B(t, u)dtdu (3.173) 


STST 
ou, compte tenu de (3.170) et (3.167), 


TT 
[ | VHV(u)B(t,u)dt du 
D (ta) 
ea V (t)s (2) dt) j. V (t)s(t) dt 


Cependant, le dénominateur du second membre de (3.174) coïncide 
avec la moyenne du carré de la dérivée par rapport au paramètre 
estimé du logarithme de la fonctionnelle du rapport de vraisemblan- 
ce. En effet, l'information de Fisher est en vertu de (3.149) égale à 


I(a)= m;, {Sin 21: (0, al) } — 


| \ 9a 
T 


mil 
_; 


V(t)V(u)[z(t)—as(t)1[z(u) — as (u)] dt du} = 


T 
J V()V(u)B(t, u)dtdu= | V(Hs() dt. (3.175) 
-T 


Par conséquent, l'inégalité de Rao-Cramer [cf. (3.150)] permet de 
conclure que l'estimation linéaire non biaisée (3.171) a une variance 
minimale dans la classe de toutes les estimations possibles de l’am- 
plitude de la composante déterministe, c'est-à-dire que c’est une 
estimation efficace de ce paramètre. 

Comme l'estimation (3.171) du maximum de vraisemblance est 
une fonctionnelle linéaire de la réalisation d’un processus aléatoire 
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normal, elle est une variable aléatoire de moyenne a (car elle n’est 
pas biaisée) et de variance MW: {G} donnée par (3.174). Ceci permet 
de donner une estimation d'intervalle pour l'amplitude [cf. (2.52)] 


P{a({—s)<a<a(1+e)}— 


V Mo u? 

= Etre ee N | 

Er 1° du=2r (5) 1—=7, (3.176) 
V Ma 


par conséquent, la longueur de l'intervalle de confiance est cf. 
(3.174)] 
T Eee 
2ea = 2 [{ V(s()dt] “ri, (3.176") 
d 5 
où z1-v est le quantile de la loi normale calculé à partir du coeffi- 


tof 


2 
cient de confiance y. 

Dans le cas d’un bruit blanc on a V,V (t) = s(t) et la variance 
(minimale) de l'estimation à est donnée par la formule 


Ma {0} = "0 (3.177) 


\ s?(t) dt 
-T 


Notons que, bien que l'estimation (3.171) soit l'estimation du 
maximum de vraisemblance de l’amplitude d’un processus détermi- 
niste additionné à un processus aléatoire normal, cette estimation 
possède également certaines propriétés importantes lorsque les pro- 
cessus ne sont pas normaux. Tout d'abord il est évident que cette 
estimation est toujours non biaisée. De plus, on peut montrer que, 
dans la classe des estimations linéaires, sa variance est minimale. 
En effet, supposons que l'estimation de l’amplitude soit égale à 


T 
a= | g(z(b dt, (3.178) 
2T 
en l'absence de biais on a alors 
T 
| g(t)s() dt 1. (3.178’) 
T 


*« 


D'une manière analogue à (3.173) 
T T 


M, {a} = | | g(t)e(u) B(t, u) dt du. (3.179) 


—T —T 
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Nous allons trouver maintenant l’infimum de la variance pour 
différentes *) fonctions g (£) sous la condition (3.178”) qui, compte 
tenu de (3.167), peut s'écriretcomme suit: 


TT 
| RTC u) dt du = 1. 
TT 


En utilisant l'inégalité de Bouniakovski-Schwartz (voir, par exemple, 
la note à la page 76, tome I) on obtient 


T TT 
i=( leOvOBe, u)dt du) < 
TT ne TT 
| | VOV()B(E, u)dt du | | gt)g(u) BE, u)dt du, 
TT STST 
d'où [cf. (3.179)] 
M2 (3) > +-7——{ 
\ | V(t)V(u)B{t,u)dt au 
TT 


ou {cf. (3.174)] 


s 1 
VM,{a}>— 


| Vt)s(s) de 
T 


(3.180) 


Ainsi, l’infimum des variances des différentes estimations linéai- 
res de l’amplitude a du processus déterministe as (t) additionné 
à un processus aléatoire arbitraire de fonction de corrélation B (t, u) 

T 


est égal à (| V (t)s (t) dt) é où V (4) est la solution de l'équation 
T 


intégrale (3.167). Cette limite correspond à g (t) = À (+) [cf. (3.170)1. 
Dans tout ce qui vient d'être dit, on supposait que 
T 


TT 
| v(s()dt= | IRACLAOZIC u)dtdu=>0, (3.181) 
= TT 

c'est-à-dire que la fonction de corrélation est le noyau positif d’une 
forme quadratique définie positive. Comme nous l'avons noté plus 


haut, cette condition correspond au cas régulier. Au contraire, si 
T 


[v&s(t)a—0, 
=T 
*) On suppose évidemment que la classe des fonctions g (t) est limitée 
non seulement par la condition (3.178’) mais également par l'exigence que 


M2 {&} soit borné, c'est-à-dire que l'intégrale stochastique (1.178) converge 
en moyenne quadratique. 
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on a le cas singulier. La présence d'un bruit blanc additif suffit 
pour que l'hypothèse (3.181) se trouve vérifiée. En effet, pour 


B (t,u) — Bt, u) + Nô (t — u) 
on a 


T TT 
RANCE | | V() Vu) Bit, u) dt du + 
=T STAT 
à 
Ne | V°({)dt=>0, (3.181) 
2T 
ceci parce que le premier terme n'est pas négatif et le second est 
positif. 

Ainsi, la présence d’un bruit blanc additif exclut immédiate- 
ment l'apparition d’une singularité. 

3.6.4. Estimations de Bayes. En généralisant la méthode exposée 
au $ 2.4.5, on peut facilement trouver les estimations de Bayes 
des paramètres aléatoires Ÿ:, . .., Ÿ de la composante quasi dé- 
terministe s (4; 01, . .., Üm) d'après la réalisation observée x (t). 

Les estimations de Bayes Ÿ, = g, {x (4)], ..., Üm — Em [x (t)] 
des paramètres inconnus Ÿ:, ..., Ÿ, minimisant le risque moyen 


R = mi {J [x (6) Fgss - - + Eml}; (3.182) 
sont données par le système d'équations [cf. (2.118)] 
20, i=1,..., m, (3.183) 
8: 


où 


” 


Je. Emlr()]= | re | TT (Ÿu, ... Üms Deer Om) X 
X Wim (O9 00. Omlr()]d81... dôm (3.184) 


W mn {1 +, Om|z(t)] = 
= — — 1m (Os... Um) LIT (1) | 01, ..., Üm] (3.185) 
Ÿ ... À wm (01, -.., Om) Lx (4) | O4, , Om] 401... Om 


Pour une fonction de pertes quadratique on a Îcf. (2.119) 


ê— | ee | HW [04 ..., Om|T (1148... dôm. (3.186) 
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Pour les limitations mentionnées dans le second chapitre, l’estima- 
tion “à Bayes est la même pour d’autres fonctions de pertes (symétri- 
ques). 

Revenant à l'exemple étudié ci-dessus, calculons l'estimation 
de Bayes de l’amplitude a du processus quasi déterministe as (t), 
en supposant tout d’abord que la fonction de pertes II est quadra- 
tique et que l’amplitude est une variable aléatoire normale de moyen- 
ne a, et de variance 0; données. 

En vertu de (3.157) et (3.185) la densité de probabilité a poste- 
riori du paramètre a, si l’on observe un segment de la réalisation 
z (t) sur l'intervalle (— T, T}), est égale à 


Wifa|zx(t)] = = CES el = 
Î wi(a)L{z(t)| a] da 


(aan) 


== EH exp {a fvo ÉCEROIDIE 


00 —(a—an) 
1 202 { 
Lave Le 0 exp [ a ro [z@—5 500 ]dt]da}" , 
où V (t) est la solution de l'équation intégrale (3.167). En calculant 
l'intégrale se trouvant dans l’accolade on obtient 


1/ 
Wila|r(y]= En » 


Co V'2x 
2 ae: 2 
X exp {Er (or) } , (3.187) 
où 
T 
= | V (t)s(t)dt, (3.188) 
-T 
T 
= | V(t)z(t)dt. (3.189) 
-T 


Pour une fonction de pertes quadratique *) le minimum de J {zx (4) | g] 
correspond à l’estimation coïncidant avec la moyenne conditionnelle 
du paramètre estimé a (cf. $ 2.3.6). Il vient immédiatement de (3.187) 
que l'estimation de Bayes de l'amplitude de la composante quasi 


*) En vertu du $ 2.3.8, les résultats qui suivent sont également vrais 
pour toute fonction de pertes symétrique. 
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déterministe est 


T 
ao+0% À V(t)r(tiét ao+ 6857 
D (3.190) 


T 4 +- OËsT 


140% À V(e)s(t) dt 


ou 
T 
= a+ | VO (0) — as (O1 di = 


-T 
= 04e (Er — ao$r). (3.190°) 


En comparant (3.190) et (3.166) on voit que l'estimation de Bayes 
est la moyenne pondérée des deux grandeurs: de l'estimation du 
maximum de vraisemblance et de la moyenne à priori &o, de plus 
le rapport du poids attribué à la première grandeur au poids de la 
seconde est égal à 

o2 


M = OST = —7—————, (3.191) 
(SVust)d)" 


c'est-à-dire au rapport de la variance de la répartition a priori 
du paramètre à la variance de l'estimation du maximum de vrai- 
semblance. 

Si le rapport mentionné augmente indéfiniment (c’est-à-dire 
si la variance de l'estimation du maximum de vraisemblance est 
inférieure à celle de la répartition a priori) on a 


# 


T ’ 

a dr (3.191°) 

ce qui veut dire que l'estimation de Bayes tend vers l'estimation 

du maximum de vraisemblance. Si au contraire, la variance de la 

répartition a priori est nettement inférieure à celle du maximum de 
vraisemblance on a 

â Co, (3.192) 


c'est-à-dire que la réalisation observée n'influe pas sur l’estimation 
qui est supposée égale à la moyenne a priori du paramètre estimé. 

Lorsque la composante aléatoire du processus est un bruit blanc, 
en vertu de (3.167) on a VV (t) = s (t) et (3.190) donne 


. 
F> 5 J'oswa 
ss (3.192’) 


A EX (t) dt 


-T 


a+ 


[SE 
Il 
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ou 
a ap + Hamv 


PT CHER à (3.192) 


Où mv est l'estimation du maximum de vraisemblance (3.168). 
La grandeur 


T 
02 6 
-T 


est égale au rapport de la variance de la répartition a priori et à celle 
de l'estimation du maximum de vraisemblance [cf. (3.177)]. 

Nous allons attirer attention sur certaines propriétés de l’estima- 
tion de Bayes (3.190) de l’amplitude de la composante quasi déter- 
ministe. Avant tout on remarque que cette estimation s’obtient 
par transformation linéaire de la réalisation observée x (£) et, par 
conséquent, est, tout comme le processus initial, normalement répar- 
tie (comme l’est aussi l'estimation du maximum de vraisemblance). 
Nous allons calculer la moyenne et la variance de l'estimation de 
Bayes d. Calculons d’abord la moyenne et la variance conditionnel- 
les ayant fixé a, puis trouvons les grandeurs inconditionnelles pre- 
nant la moyenne sur a. En vertu de (3.190°) on a 


m {a| a} = ao+(a— ao) ETS 
Oêsr 


M, {a | a}= ose M + (a — 00) srl, 


et comme m, {a} = ao, m, {(a — ao)*} = 65, en prenant la moyenne 
sur a, on obtient 


mm. {à} — Go: (3.193) 
M: (G}= = Tir (3.193") 


Pour u —+ 0 la variance de l’estimation de Bayes tend également 
vers zéro, et pour p — oo la valeur asymptotique de cette variance 
est égale à of. 

1 Notons que la fonction J [&|zx (t)] dans l'exemple envisagé est 
2h vertu de (3.189), (3.187) et (3.190) égale à 


Jlâ|z()]= ( (a—a} Wila|z(t)] da = Ma{alz(t)}— 


| 2 
 — -È—) Ê (a— a} x 
1 #0 : 
X exp = un (a — a) | = (3.194) 
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c'est-à-dire qu'elle ne dépend pas de x (t). Par conséquent, le risque 
moyen est égal à 
(Un 


R=m{Jlalz()} = =. —, (3.195) 


Pour 6, —+ 0 le risque moyen tend également vers zéro car dans 
ce cas la répartition a priori du paramètre estimé tend vers une 
fonction delta. 

Pour 60 — © on a 

R— Rimax = — (3.196) 
T 
c’est-à-dire vers la valeur de la variance de l’estimation du maximum 
de vraisemblance. 

Ainsi, la répartition a priori pour laquelle la variance est bien 
supérieure à celle de l'estimation du maximum de vraisemblance 
est la moins favorable et, par conséquent, l'estimation (3.166) du 
maximum de vraisemblance est également celle du m; nimaz. 

3.6.5. Propriétés asymptotiques de l’estimation de Bayes. Pour 
une répartition a priori arbitraire w, (a) de l'amplitude du’n signal 
quasi déterministe, l'estimation de Bayes de cette amplitude pour 
une fonction de pertes quadratique est en vertu de (3.186) égale à 


a= | aWila)z(#)}da, (3.197) 
où zx (f) est la réalisation observée sur l'intervalle (— T, T) de la 
somme du signal as (t) et d’un processus aléatoire normal de moyenne 
nulle et de fonction de corrélation donnée B (f, y). 

Portons dans (3.197) l'expression de la densité de probabilité 
a posteriori du paramètre estimé [cf. (3.187)], en utilisant l’expres- 
sion pour la fonctionnelle du rapport de vraisemblance et les nota- 
tions (3.188), (3.189); la formule (3.197) s'écrit alors comme suit : 


| aw, (a) exp (arr— _. sr) da 


& 
] 


© 
©œO 
a 

\ U, (a) exp (arr sr) da 
Zoo 

En complétant les exponentielles dans les expressions sous les 
intégrales de manière à avoir un carré entier, après des transforma- 
tions algébriques simples on trouve 


14—0682 
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Si la variance de l'estimation du maximum de vraisemblance 
sr — 0, on a 


[Sr [sr zr \° ZT 
V eme) ]-6(-7) 

La formule asymptotique pour l’estimation de Bayes de l’amplitude 
pour sr — oo s'obtient à partir de (3.198), supposant w, (a) continue 
et utilisant la propriété de filtrage de la fonction delta: 

T 

| V(t)z(e) dt 

QT = —. (3.199) 


T 
| V)s(t)dt 
-T 


Ainsi, quelle que soit la forme de la répartition a priori w1 (a) 
de l'amplitude a, l'estimation de Bayes tend pour sr — oo vers 
l'estimation du maximum de vraisemblance (3.166). 

Dans le cas où le processus additif est un bruit blanc on a 

T 


1 2 
ST — No | S” (#) dt, 


c'est-à-dire que la relation asymptotique mentionnée reste valable 
lorsque le rapport de l'énergie du processus déterministe à la densité 
spectrale du bruit blanc additif augmente indéfiniment. 

Comme l'estimation non biaisée du maximum de vraisemblance 
(3.166) est répartie normalement et sa variance est sr’, la densité 
de probabilité conditionnelle asymptotique (pour sr — oo) de l'esti- 
mation de Bayes peut s’écrire comme suit: 


W,(a|a)= V = exp [ — + (a— a)* | x (3.200) 


par conséquent, la densité de probabilité non conditionnelle de l’esti- 
mation de Bayes à pour sr — © tend asymptotiquement vers 


W, (à) = | um (a) W; (à | a) da — w, (à), (3.200') 


c'est-à-dire vers la densité de probabilité a priori du paramètre 
inconnu où la variable a est remplacée par l’estimation du maximum 
de vraisemblance de ce paramètre. 

3.6.6. Généralisation des résultats. Revenons maintenant au cas 
général lorsque la composante déterministe s (f; 01, . .., 0) con- 
tient un nombre quelconque fini de paramètres inconnus. Comme 
précédemment, la composante aléatoire est un processus aléatoire 
normal de moyenne nulle et de fonction de corrélation donnée. 
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Supposons que la fonction s (£; 01, . .., 0) puisse s’écrire comme 
suit : 


S(t; Das...) Om) = D) D j8; (4), (3.201) 
j=1 


où s;(é), j = 1, ..., m sont des fonctions connues. 

Calculons maintenant les estimations simultanées du maximum 
de vraisemblance des paramètres 01, . .., 0,. En portant (3.201) 
dans le second membre de (3.158) on peut remplacer l'équation inté- 
grale (3.158) par le système d'équations 


T 
| 86, u)Vi(u)du=si(t),  [eIT, 
IT 
i— 1, ..., m, (3.202) 


la fonction V (t; 01, ..., 0) dont dépend le logarithme de la 
fonctionnelle du rapport de vraisemblance (3.157) est égale à 


V(t: 91, ..., Om) = à 8; (4). (3.203) 
1— 
Dérivons (3.203), il vient 
VUE: Or... Om) = Vi (#). (3.204) 


Portant (3.204) dans (3.161), obtenons le système d'équations du 
maximum de vraisemblance 


T m 
RACIÉOP AE DUIC EU i—1,...,m, (3.205) 
T u È 


3= | 


ou 
cm T T 
D 6; [iGs;(d= | Vit)z( ar, 
j=1  2T 2T 
=. 0e (3.205) 
Introduisons les mêmes notations que dans (3.188) et (3.189), soit 
T 
Sriy= | Vi(t)sy(e) de, (3.206) 
T 
T 
tri = [y (t)z(t) dt. (3.206) 
ET 


14% 
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Ecrivons comme suit le système d'équations linéaires (3.205) par 
rapport à Ÿ; 


mn 


2 Srij0 = Xri; i—1,..., m, (3.207) 


ou sous forme matricielle 
Sr — À7, (3.207°) 
où sr est une matrice m X m dont les éléments sont sr;;; ® et X7r 
sont les vecteurs colonnes dont les éléments sont Ô; et x: respecti- 
vement. 
Supposant que pour tout j on ait 

T 

| s (4) dt € 00 

ST 
et que B (t, u) soit une fonction définie positive (cf. $ 3.3.1), on en 
déduit alors qu'il existe une matrice sr” inverse de la matrice sr. 
La solution de l'équation (3.207') donne alors les estimations du 
maximum de vraisemblance des paramètres inconnus 


Ô — s7X7. (3.208) 
Si la composante aléatoire du processus observé est un bruit 
blanc de densité spectrale W,, on a en vertu de (3.202) 
NoVi (£) = S; (#), Î —; 1; . . .) MM; 


et, par conséquent, les matrices s7 et X7 dans (3.207') deviennent 
(le facteur NV, disparaît) 


sr — | EEE ,  i=1,..., m, 
J Fe ff (3.209) 
Xr =| TOOL ni (3.209") 
TT 


l'estimation vectorielle (3.208) est non biaisée. En effet, on obtient 
à partir de (3.208) *) 

m4 {0} — ST M; {Xr}. (3.210) 
Mais 

mn T m 

ma {xri} — ÿ Ÿ ; | sj(#)Vi(t)dt = y djSTij 

ji  =T = 1 

par conséquent, | 
m: {Xr} —= SrŸ. (3.210°) 


*) Sur la moyenne des matrices voir $ 2.7.1. 
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Portons (3.210') dans (3.210), il vient 
m, {0} = #, (3.211) 


ce qui montre que l'estimation (3.208) est non biaisée. 
Nous allons trouver l'expression de la matrice de corrélation M 
des estimations (3.208) du maximum de vraisemblance [cf. (2.99)] 


M = m, {(ô — 6) (ô — ®)'}, (3.212) 


où le signe « prime » indique qu'il s'agit d'un vecteur transposé 
(et dans la suite d’une matrice transposée). Après de simples réduc- 
tions et substitution à Ÿ de l'expression (3.208), nous obtenons 
compte tenu de la symétrie de la matrice s-: 

M = m, {00’} — 00’ — m, {sr X,-X7 (s7) } — 00° — 


— spim {XrXr) 55 — 00". (3.213) 


Mais 
TT In m 
Mi {tritr;} = | | B(u, v) Vi(u)V ;(v) du dv + ÿ ÜrSTih > ÜnSrjn; 
TT k=1 n=1 
par conséquent, [cf. (3.202)] 
m4 {XrXr} = Sr + Ssr00'sr. (3.214) 
Portons (3.214) dans (3.213), il vient 
M = s7!, (3.215) 


c'est-à-dire que la matrice de corrélation des estimations du maxi- 
mum de vraisemblance de la composante déterministe (3.201) 
coïncide avec la matrice inverse de s-+ [cf. (3.206) et pour un bruit 
blanc (3.209)]. 

Nous allons également calculer les éléments de la matrice d'’in- 
formation de Fisher [cf. (2.98)]. Utilisons le premier membre de 
(3.205), il vient 


T 
i, j dIn! ôln! 
16 = ms | 36: 06, }=m { [veux 


T 
x | z (u)— > Dasx (u) | d u | ACIECE > Dans (b) | do } = 
T di T 
— | Bt v) V (u) V;(v) du du = ILZ (u)s; (u) du, 
ST=ET CT 


ce qui coincide avec (3.206). 
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Ainsi, la matrice d’information coincide avec la matrice sy, 
c'est-à-dire 
I =s,, (3.216) 
et, utilisant (3.215), 


It = s7! = M. (3.217) 


Par conséquent Îcf. (2.99)], les estimations du maximum de 
vraisemblance (3.208) sont simultanément efficaces. 

Les résultats analogues peuvent être obtenus également quand 
les données des observations se présentent non pas sous la forme 
nn réalisation x ({), mais d’un échantillon discret (cf. problè- 
me 3.6). 

On peut également généraliser les résultats du $ 2.6.4 au cas 
des estimations simultanées de Bayes des paramètres aléatoires 
Vi, - - - Om d'une composante quasi déterministe de la forme (3.201) 
[cf. problème 3.7 ainsi que [11]). 

3.6.7. Estimation des paramètres de la fonction de corrélation. 
Supposons qu’il y ait lieu d'estimer les paramètres inconnus 04, ... 
rs Üm de la fonction de corrélation B (£, y; 1, . .., Üm) d'un 
processus aléatoire normal de moyenne nulle. Pour exclure la sin- 
gularité nous allons supposer qu’on ajoute au processus un bruit 
blanc normal de densité spectrale NW,. Ainsi, la fonction de corré- 
lation du processus aléatoire étudié E (f) se présente sous la forme 
de la somme 


Bx (4, y) = NO (y — 1) + Bt, y; V1, . . ., Om). (3.218) 


Nous allons utiliser l’expression (3.123) du logarithme de la fonc- 
tionnelle du rapport de vraisemblance en y posant 


Bt, u)= Bs(t,u) et Bt, u)= Noô (t—u), 


In l{z (8); 81... Oml= D IAR (Oise, Om) — 11 X 


R=1 


x | (20e 6: Dis ses ôm) dt | — 
2T 


—+ Sin An(s es Om), (3.219) 


h=1 


où conformément à (3.120) y; et À, sont les nombres caractéristiques 
et les fonctions propres de l'équation intégrale linéaire 


T 
| (Bt, u; 01... Om)+ Noô(t—u)— AN (4 —u)] p(u) du = 0 
-T 
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ou 


T 
No—1)p()= | Bu; 0... 8n)p(u)du, LIST, (3.220) 
-T 


* 


les fonctions propres étant normées conformément à (3.120°) 


T 
Nohn (O1 -.., Ÿm) À qu te; d, Les Om) n (3 Vs Om) dE = 
2T 


4, k=n 
— ? | 3.221 
{ 0, kÆn. ) 


En prenant le maximum de la fonctionnelle du rapport de vrai- 
semblance pour critère de qualité des estimations d1, . .., 8, des 
paramètres inconnus, nous trouvons que ces estimations doivent 
satisfaire au système d'équations 


in tiz (0); bn... Om] = 0, i= 1, °..s M, (3.222) 


où il y a lieu de substituer l'expression (3.219) pour In {x (t); 
Di sus dal 

Considérons plus en détail le cas où la fonction de corrélation 
B (t, y) est donnée à un facteur constant près, c’est-à-dire 


B(t,y) = cR (1, y). (3.223) 


Pour un processus aléatoire normal stationnaire, le paramètre 
inconnu c peut être la variance, alors R (ti, y) — R (y — t) est 
le coefficient de corrélation donné. 

Dans ce cas l'équation intégrale (3.220) s'écrit 


T 
pO=n [RG u)p(u)du, |11<T, (3.224) 
=T 
où 
= (3.225) 
Cette dernière formule donne pour À 
A=i+. (3.226) 


Ecrivons maintenant la fonctionnelle du logarithme du rapport 
de vraisemblance. En portant (3.226) dans (3.219) et compte tenu 
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de la normalisation x (ét; c) = ER x (£) on obtient 
k 
co ue T 
N 2 
tree gg DE | | za] — 
k=1 1+ k 


Nou k 


+ 2 In(i+-—). (8227) 


En dérivant (3.227) par rapport à c, on trouve l'équation du maxi- 
mum de vraisemblance 


se" 


he 


EE 
À dires (1+ nu) Mi my j* 


T co 
 Craon al 1 $ 122 0 
x] Le ) Pa (£) | 2 Nu grecs 
ou 
co T 00 

1 1 | 2 1 
= (6) qu (6) dt == D 7, (3.228 
de = pres mn EN id | > (1+ AT }mx | | 


En résolvant (3.228) par rapport à c, on obtient l'estimation 
du maximum de vraisemblance. Dans cette équation px; et œx (4) 
sont les nombres caractéristiques et les fonctions propres de l’équa- 
tion intégrale (3.224). Il est évident que le calcul de l'estimation 
du maximum de vraisemblance sous forme explicite à partir de 
(3.228) est très ardu. On remarque cependant que cette estimation 
s'obtient par des transformations non linéaires de la réalisation obser- 
vée zx (t). 

Nous allons maintenant trouver l’infimum de la variance des 
estimations non biaisées du paramètre c de la fonction de corréla- 
tion. À cet effet calculons l'information de Fisher [cf. (3.149)]: 


I (c)=m {(51 nllz(#|el) 
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Later et 


k=1n—1 Hhlin (1+ TT LR Nan ) 
em (ne) (rem). 
où . 
Mn — ETC Pr (t) di 
CT 


est une variable aléatoire normale de moyenne nulle et de variance 
No + , N# et M étant indépendants pour k — n. C’est pourquoi 
pourk-Ænona 
OS A DCS Re | 
mi { (ni No Lx ] (me No Un }; D, 
et pour £ = n 


m {(ni— M2) — m {nt} — (M+) =2 (Vo+)". 


Par conséquent 


à 1 
I (c) = Des De (3.229) 
R:--1 (1+-— Nolk | 
En vertu de l'inégalité de Rao-Cramer [cf. (3.150)] on a pour la 
variance d’une estimation non biaisée 
” 9 N2 
M (3.230) 
1 
> e (4 C 2 
k=1 Hy ( ee Nour ] 
Compte tenu de (3.225), la limite inférieure de la variance Île se- 
cond membre de l'inégalité (3.230)] s'écrira alors comme suit : 
net (3.231) 


2 Ÿ (M) 
hk=1 
Introduisons la fonction h(t, y) définie par (3.132) et solu- 
tion ds l'équation intégrale [cf. (3.134)] 


[re ho, y)dy+ 2h, D=R(,v), LT. (3.232 


ÈT 
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A partir de (3.231) on obtient l'expression de la limite inférieure 
de la variance de l'estimation du paramètre c sous la forme 


(3.233) 


2c° 
Momin = 


T T 
Û (A2, y) dt dy 
TT 


<ar en vertu de (3.132) on a 


ire y) dt dy = (2) = 2 rt 


LES 1, en qualité de solution approchée de l'équation inté- 
. G. 232) on peut prendre 
h(v, 1) = F- R(t,v). (3.234) 


On aura alors pour la limite inférieure de la variance de l’estimaiton 
du paramètre c l’expression asymptotique suivante 


9 2 | D) 
— R°(u, v)dud 
T2 ii u, LV) au av 


Pour un RE stationnaire au sens général on a 


LE à 
( [re (u, v) du do = | (2T—]x|) R°(x) dx 
TT -2T 


et la relation (3.235) s'écrira alors sous la forme 


Mmin À (2) kr, (3.235") 


où 


L=+ ‘| DEL) R2 (x) dr. (3.236) 


Notons qu'en utilisant (3.226) on peut écrire comme suit la 
formule (3.231): 
Mamin 2 


= ETS (3.236") 


Pour NV, — 0 le dénominateur de (3.236’) augmente indéfiniment 
(ux ne dépend pas de W,), donc Momin — 0. Ceci montre qu'il 
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est possible d'estimer sans biais, avec une variance nulle, un paramètre 
de la fonction de corrélation en l'absence de bruit blanc additif, 
ce qui correspond au cas singulier envisagé plus haut [cf. (3.130)]. 


= 
Ù 
Î 
l 
l 
Ù 
l 
Ù 
Ù 
Ù 


NSh(ttdt 
T 


Fig. 3.1. Schéma d’un dispositif d'estimation du facteur 
d'amplitude d'une fonction de corrélation 


Nous allons étudier maintenant une classe spéciale d’estimations 
non linéaires du paramètre inconnu c de la fonction de corrélation 
d’un processus aléatoire normal (fig. 3.1): 

TT T 


c— | ne, u)zx(t)z(u) dtdu—N, ja, t)dt. (3.237) 
TT -T 
Il est facile de voir que ces estimations sont sans biais si 
T T 
| ETC u) R(t, u) dt du—1, (3.238) 


ÉTET 
car PR Qu, de (3.218) on a 


ms {€} = [ EC u) B:(t,u)dtdu—N, | h(t, t)&t= 


-T- 


= C 


RE L— 
M 


ht, u)R(t, u)dtdu=c. 


Te 
La variance de l'estimation (3.237) est 
Matc}=m Fe Rs 

T 


= l | (ac, u)h(v,y)m{x(t)z(u)z(v)x(y)} X 


-T-T 


3 


T 
x dt du dudy —2N, jar, t)dt l fre u) Be (t, u) dt du+ 
-T 


+ 


N° ({ h(4, t) dt) — 2. 
-T 
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En utilisant l'expression bien connue du moment mixte du quatriè- 
me ordre d’un processus aléatoire normal (cf. problème 4.5, tome I), 
on obtient en tenu de (3.218) et de la normalisation (3.238) 


T 
Ma{c}=2N: | [re v) À (v, t) dt du+ 


-T - 


T 
HAN [I hk(t,u)h(t, y) R(u, y) du dy dt+ 
-T 
T 


k(t,u)hk(v, y)[R (6, v) R(u, y) + 
-T 


nn 
L— nee 


+R(t, y)R(u, v)]dt du du dy. (3.239) 


La recherche de la fonction de pondération k (f, u) pour laquelle 


la variance M: {c} est minimale pour la condition (3.238) est un 
problème compliqué du calcul des variations. Cependant, il est 
facile de résoudre ce problème dans les cas limites lorsque les rap- 


ports ar sont petits et grands. 


Si ne T À 1, le problème formulé ci-dessus se réduit à minimiser 
la fonctionnelle [premier terme dans (3.239)] 


T 
Î Î k(£, v) À (v, t) dt dv 


pour la condition (3.238). La solution est alors 


ht, u)=-— AUS 


\ \ R?(u, v) du dv 
TT 


(3.240) 


Par conséquent, dans le cas envisagé on a 


TT 
‘ \ R2(4, v) dt dv T 
2T 


= 1 

— > — 

(1 LŸ R2(u,v) du dv)” 
[TT 


À 4= 
J je v) du dv | ; 


less 


Nil 
Nil 


(3.241) 
ce qui en fait ne diffère pas de (3.235). 
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° Q No , Q 6 e Q # 
Ainsi, pour + > 1 l'estimation non biaisée 


nos 1! (re u)x(t)x(u) dt du — 
[ ( R?(u,v)dude -T-T 


-T-T 


T 
en. | R(t, 1) dt | (3.242) 
-T 


est une estimation asymptotique efficace. 
Pour un processus normal stationnaire, (3.242) s'écrira 


TT 
= 1 
a —— | RS COLE ES Ni |- 
U— IL } R2(x) dt Fee 
—2T 
(3.243) 
Dans l’autre cas limite lorsque 2 + Oona 
Ê TTT 
Mate | | T Trcurenx 
TT TT 


X{[R(,v)R(u y)+R(4 y)R(u,v)]dtdudvdy>=>0. (3.244) 
Ainsi, dans la classe des estimations non biaisées considérées, 
la variance de l'estimation, même pour LE — 0 (lorsque la singula- 


rité est possible), est limitée en bas par une grandeur différente de 
zéro. 

3.6.8. Estimation de la fonction de corrélation. Dans les para- 
graphes précédents nous avons étudié les estimations des paramètres 
inconnus de la répartition d’un processus aléatoire. Dans certains cas, 
pour un type de répartitions donné, ce sont les fonctions déterminis- 
tes caractérisant la répartition qui sont inconnues. Il s’agit avant 
tout de la fonction de corrélation et du spectre énergétique d’un 
processus aléatoire stationnaire (au sens général). Dans ce paragraphe 
et le suivant nous allons étudier les estimations de ces fonctions 
d'après une seule réalisation zx (£) du processus, observée sur l’inter- 
valle (—T, T). 

Pour les processus aléatoires ergodiques la moyenne temporelle 
(cf. $ 4.1.6, tome Î) 


T 
Br(t)= 7 fz@z6+7 dt (3.245) 
-T 
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tend en probabilité pour ZT — vers la fonction de corrélation 
B (t) du processus aléatoire. Pour des hypothèses supplémentaires 
(par exemple, sur la normalité du processus), B+ (x) converge en 
moyenne quadratique vers B (x) (cf. problème 4.2, tome I). 

Naturellement, on pourrait prendre pour l’estimation de la fonc- 
tion de corrélation inconnue la fonction de corrélation temporelle 
échantillonnée (3.245). Cependant, cette fonction n’est pas commode 
car pour la calculer pour | t | < T quelconque, il faut connaître des 
valeurs de la réalisation x ({) à l'extérieur de l'intervalle d’obser- 
vation (—T, T). C'est pourquoi on prend pour l'estimation de la 
fonction de corrélation B (x) la fonction 


B (= BH (T)= 575 | st )2fi+5)a, 1r1<T. 


(3.246) 


L'estimation (3.246) tout comme (3.245) est consistante et non biai- 
sée. Cette dernière remarque est légitime car la moyenne sur un en- 
semble des réalisations est 


Ra 
2 


ma Br (= TT | ms {x (t—5)2(1+5)} #80. 


T 
cry LE 


T- 


(3.247) 


Pour calculer la variance de l’estimation (3.246) nous allons tout 
d’abord trouver le moment deux de la grandeur aléatoire BF (rt): 


m(Bi()=gr-rm | [ Omfr(u—5)x 


! 
STE el Ti — 


E (u +7) x (v— >) Z (v +3+)} du du. (3.248) 


Le processus étant supposé stationnaire, le moment quatre 


mÂs(u-z)z(e+ 5) (0-3) <(0+3)) 
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dépend seulement des deux arguments t et v — u. Désignant ce 
moment par M (x, vu — u) on peut écrire (3.248) comme suit *): 


IT} IT! 
T-—— T- —— 


1 
Mo {Br = | | M (T, v—u) du dv — 
-r+ Lil rs ot 
ñ 2T-|T| 
TITI 2T—|T|—|2|)X : 
ere | T—|7| |21) M (x, z) dz 
Comme 
T-|T] 
:  — 
CT—[ TI (2T—|r|—1:|)d:=1, 
—2T+]|T| 


et compte tenu de (3.247), on a 
M:{B7(x)} = me {BT (t)} — B* (x) — 
2T-|+| 
| (2T—|x|—|2|)[Af(x, 2)—B?(x)]dz. (3.249) 


-2T+17| 


= 
—ET—TT I 


Pour un processus aléatoire normal stationnaire le moment quatre 
est égal à (cf. problème 4.5, tome I) 


M (x, z) = B° (x) + B° (2) + Br +z) Bt —2).  (3.250} 


En portant (3.250) dans (3.249) on obtient l’expression de la varian- 
ce de l'estimation de la fonction de corrélation d’un processus aléa- 
toire normal 

2T-|7T| 


MB) | (7) 


X(B2*(:)+B(t+2z) B(r—:)]dz (3.251) 


On peut calculer la distribution des probabilités de l'estimation 
(3.246) par les méthodes du $ 9.3 du tome I. Les résultats mentionnés 
dans ce paragraphe montrent en particulier que pour T —> œ cette 
estimation tend asymptotiquement vers la loi normale de moyenne 
B (x) et de variance 


Ma {BX (r)} - + Â [B°(2)+B(r+z)B(r—zldz (3.252) 


*) On passe de l'intégrale double à l'intégrale simple tout comme dans 
la transformation de (4.60) à (4.61) du tome I. 
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Pour t = 0 on trouve à partir de (3.246) l'estimation non biaisée 
de la puissance moyenne du processus aléatoire stationnaire 


T 
mè= BY (0) => EI dt, (3.253) 
2T 


dont la variance, pour un processus normal, est selon (3.251) égale à 
2T 


M (3 + | (1—-7) B° (2) d2. (3.254) 


Pour T —+ l'estimation (3.253) de la puissance moyenne tend 
asymptotiquement vers une loi normale de moyenne B (0) et de 
variance 


Ma {mt} + | B°(z) dz. (3.255) 
U 


Notons que l'estimation (3.253) est un cas particulier de (3.237) 
pour NV, =0eth(é, u) — _ ô (t — u). La formule (2.239) devient 
alors (2.254). 

Les résultats ci-dessus peuvent facilement être généralisés à l’es- 
timation de la fonction de corrélation mutuelle B:, (rt) de deux pro- 


cessus E (1) et n (f) stationnaires et stationnairement liés. D'une 
manière analogue à (3.246) on a 
[TI 
T= Alt 


LU] 


Bin) = Ç zft—5)uy(s+5) de, 1rI<T, (3.256) 


T 
rg il 


où x (f) et y (f) sont respectivement les réalisations des processus 
E (4) et n (t) observés sur l'intervalle (—T, T). 

L’estimation (3.256) est non biaisée, sa variance étant [compa- 
rer avec (3.249)] 


2T-|+T| 
MaBirG}=gg | (1-2) Wen 2) Bt (01 de, 
us | (3.257) 
ou 
Monts um {a (a 3}o(u+3e(e—Hv(e+5)} 
(3.258) 


3.6.9. Estimation du spectre énergétique. Estimons en première 
approximation le spectre énergétique d’un processus aléatoire con- 
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os 


tinu *) stationnaire, d’après sa réalisation zx ({) sur l'intervalle 
(—T, T), par la grandeur (cf. $ 4.7.3, tome I) **) 


Ê(&)= Gr (v)= + |Zr (iv), (3.259) 
où 
T 
Zr (iw) = { xz(t)e-iot dt. 3.260) 
2T 


Il est facile de voir que l'estimation (3.259) est biaisée. En utilisant 
la formule (4.61) du premier tome on a 


T 


m1 {Gr (@)} = Fr (o) = 4 | (1 —+) B (x) coswt dt = 


T 
= F(o)—4(+ | sB(cosur a+ | 8 (Heoserdr). 


Par conséquent, le biais de l'estimation du spectre énergétique pour 
T donné est 


T œ 
F (0) — Fr (0) + | TB (rt) cosot dt + 4 { B(r)coswtdt, (3.261) 
U T 
où B (x) est la fonction de corrélation du processus. 
Cependant, on conclut de (3.261) (comme d’ailleurs par défini- 


tion du spectre énergétique) que l'estimation (3.259) est, pour 
T — co, asymptotiquement correcte, en effet 


lim Fr (w) = F (w), 
T-»0 


pour 


T 
lim — | <B(x) dr - 
U 


Nous allons trouver la variance de l'estimation (3.259) du spectre 
énergétique d’un processus aléatoire normal. À cet effet nous allons 
tout d’abord calculer le D ge 


T T 
k | {: ETOICIOE 
À ST 
x e-iott-y+u-) di dy du dv. 


ma {Gr (@)} = ms {GF (w)} = 


*) On suppose par là même que la moyenne du processus est égale à zéro 
et qu’il ne contient pas de composantes quasi déterministes. 
**) En statistique, l'estimation G7 (w) est souvent appelée périodogramme. 


15—0682 
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Comme pour un processus normal on a (cf. problème 4.5, tome I) 
m, {x ()z (y)z(u)z(v)} = B(y—1t)B(v—u) + 
+B(u—B(v—-y)+B(v—t)B(u—y), (3.262) 


alors (cf. (4.60), tome I) 
D PTT 


m(Gr(o)}=r | | | (BG-1B&-u)+ 
TT TT 

+ B(u—t) B(v—y)+B(v—t) B(u—yje-tatt-vtu-9 x 
TT 

x dt dy du du=2F}(u)+7 | B(t—u)x 
-T-T _. 

x e=iutt+u) dt du { | B(v— y) evu-+n dy dv 
TT 


ou 


T T 
ms (Gr (0)} = 2Fi (0) ++ | [ B(u—t}e-toita du qu |. (3.263) 
ST ET 


Utilisons (3.263) pour trouver la variance de l'estimation cherchée, 
on a 
M: {Gr (@)} = m2 {Gr (w)}— mi {Gr (w)} — 
TT 


= Fi (0) ++ | Î B(u—t}e-iuttu dr du |”. (3.264) 
TT 


Comme pour T + oœoetwÆ#0Üona 


207 


7 | Î ( Blu e-wuruar du| Fo) (SET), (3.265) 
-T-T 


le second terme dans (3.264) tend vers zéro pour T — œ et w 0, 
par conséquent 
lim M: {Gr (o)} = F° (0). (3.266) 


Pour w = 0 et T —+ il découle directement de (3.264) 
Jim M3 {Gr (0)} = F*° (0). 


Ainsi, pour tous les © pour lesquels F (w) >> 0, la variance de 
l'estimation du spectre énergétique re {end pas vers zéro pour T —+ oo. 
Autrement dit, pour 7 — l'estimation ne converge pas en moyenne 
quadratique vers le paramètre estimé. 

Supposant toujours normal le processus étudié, on peut trouver 
la densité de probabilité de l'estimation (3.259) de son spectre éner- 
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gétique. Cette estimation est la somme des carrés des variables aléa- 
toires normales 


T 


1 à 
z(t)cosœt dt, —— | x(t)sin ot dt, 
7 T VT Î 


dont les moyennes sont nulles, et les variances et la covariance sont 
respectivement 


Oce (©) = m; {+ ( 10) coswt dt)" } == 
T 


Le 


B(v—u)coswvcosœudvdu, (3.267) 


Le 


2T 
T 
OT. (©) = ms {+ ( | x (t) sin ot dt) . 
TT 
= r | | B&—u) sinovsinoududu, (3.268) 
TT 


Mr (©) — m:; {+ e (t) cos ot dt {- (£) sin ot dt} — 


TT 
__ r | Len (3.269) 
ÈT - 


Utilisons la formule (3.116) du tome I pour écrire l'expression de 


la fonction caractéristique de l'estimation du spectre énergétique, 
il vient: 


co 


{ C 1 
e LE mme { X { = FPS CE 
ST (o) 210rc0Ts V 1 — À pe sl 0 " 2) d 


x (È—2RT RE +) iv (at+ 29} du dre = 
VIRE ere 4 . : 
= — | { EXP 5 Gi 2Rruiye + 12) + 


+ iv (1— R?) (chui + chui) } dun dus, 
où l’on a introduit la notation 


Rr=—"T—.. (3.270) 


OTcOTA 
15° 
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Calculons l’intégrale d’après la méthode exposée dans l’annexe II. 
On a 


Or (v)= V1 —RF [1 —2iv (1 — A5) (o$e + 044) — 


tsl— 


— Au? (1 — RP) 0$c0$5— RF] 
ou 


1 
Ocr(v) = [1 —2iv (of. + of) — Av? (1 — RŸ) 00%] 2. (3.271) 


Par transformation de Fourier inverse *) on peut trouver la den- 
sité de probabilité cherchée de l’estimation du spectre énergétique 
d’un processus aléatoire normal, soit : 


1 OFc + 0Ts : 
W 2) = X a 
Gr () 20rc0rs V1—RE exp 46Fc0Ts (1 — ÀT) ] d 
VIRE FAR OERE 
EL 2 > 9 
x AI 403,03, (1— 5) :| z2>0C. (3.272) 
Par définition du spectre énergétique, on a 
lim of. (w) — lim 0%, (©) — _ F(w) (3.273) 
T—00 T—00 - 
lim mr (@)=0. (3.274) 
T—+00 


En vertu de (3.272) pour T —+ « l'estimation du spectre énergétique 
tend à la limite vers une loi exponentielle 


1 FO - 9 
Fe @), :>0 (3.275) 


Were) — 


de paramètre F (w) {c'est-à-dire que la moyenne est égale à F (o) 
et que la variance F?(w) correspond à (3.266)]. 

Bien que l'estimation À (wo) — G+(w) du spectre énergétique 
d’un processus aléatoire soit asymptotiquement correcte, elle a cet 
inconvénient que même en augmentant le temps d'observation de la 
réalisation du processus aléatoire, on n'arrive pas à atteindre la 
précision désirée car même pour 7? — oc, la variance de l'estimation 
reste finie. C'est pourquoi nous allons envisager également une classe 
d’estimations biaisées dont la variance croît avec l'augmentation 
du temps d'observation. 

Estimons le spectre énergétique continu d’un processus aléatoire 
stationnaire par la grandeur aléatoire suivante, qui est une fonction- 
nelle de la réalisation observée du processus sur l'intervalle (—7, T), 


*) Voir, par exemple, [5], vol. 2, page 328. 
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soit : 
T T 
F (&) = gr (©) = _ | { z(u)h(t—u)e-ivudu| dt, (3.276) 
2T =T 


où À (t) est une fonction de pondération pouvant être interprétée 
comme la fonction de transition impulsionnelle d’un certain filtre 
linéaire. L’estimation (3.276) s'obtient en prenant la moyenne tempo- 
relle sur l'intervalle d'observation de la somme des carrés des proces- 
sus à la sortie du filtre en question, lorsqu'à l’entrée on applique 
les processus zx (£) cos œwt et x (f) sin wt. 

En introduisant les transformées de Fourier Z+ (iw) pour la réali- 
sation zx (t) et k (iw) pour la fonction de transition impulsionnelle 
k (x) (cf. (5.5”), tome I] on peut écrire (3.276) comme suit: 


PR LEE 


æ 00 — 00 — 00 0 


X Zr (iws) k (iws) k (iw,) exp [iu (oi —w3—@) + 
—+ iv (0: — ©, + ©) +- it (03 + ©,)] du dr dt du, do, de: dw,. (3.277) 


Prenons la moyenne des deux membres de (3.277) sur l’ensemble 
des réalisations, passons à la limite pour T — œ et utilisons la 
propriété de filtrage de la fonction delta 


Ô (@) — _ | eïvu du, 


(cf. annexe III); il vient 


C0 


1 2 
m; {gr (w)} bé pr4 F (wo + v) C° (v) av, (3.278) 
où : 
C?(@) = | k (iw) |*. 
En examinant (3.278) on remarque que l'estimation (3.276) 
est biaisée. La caractéristique normée du filtre étant 


_ | C2 (v) dv — { R®(x)dr = 1, (3.279) 


le biais asymptotique de l'estimation s'écrit comme suit 
1 a ° 
mi{gr (@)}—F(o) - —— | [F(v)—F(0)]C*(v—w) dv. (3.280) 


. En supposant de plus que le processus x ({) soit normalement 
distribué, on peut trouver l’expression asymptotique (pour T —+ co) 
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de la variance de l'estimation (3.276) [15], soit : 
Ma{gr (@)} + + F'(6) | C'(w) do. (3.281) 


Pour un filtre de lissage du type RC-intégrateur (cf. $ 5.2.8, tome I), 
compte tenu de (3.279), on a 


2 2 1 
COS = 7e: 
1+(3) 
et (3.281) donne 
Ma {gr @)}— 27 F° (0) (3.282) 


ce qui signifie que pour obtenir une valeur suffisamment petite de 
la variance de l'estimation, le temps d'observation doit être bien 


supérieur à la constante de temps + — RC du filtre (autrement dit, 
le produit de la largeur de bande du filtre par le temps d'observation 
doit être bien supérieur à l'unité). 
Problèmes 
3.1. Soit s (t) une fonction déterministe dont le spectre (transformée de 


Fourier) est continu ct limité à la bande de fréquence (w;, w2). Montrer que 
dans ce cas on a la formule d’interpolation 


2 pansnfa(s-) |  — 
sh= Ÿ ris ” [oo (5) 9 (5) |, & 
N on à 
a Fe ns Op = LU (2) 
A2 (4) = 82 (4) + 02 (+) ; (3) 
p(t)=arc tg S ; (3) 


o (t) est la transformée de Hilbert de s (t) (cf. annexe VI). 
3.2. Montrer que la surface délimitée par une fonction déterministe f (+) 
dont le spectre continu est identiquement nul pour | w | > A est égale à 


EL nn 
{ jou D 1(À). (4) 
— 00 N= — © 
En utilisant (4) et la formule (4.67’) du premier tome montrer que le temps de 


corrélation d’un processus aléatoire stationnaire au sens général, dont le spectre 
énergétique est continu et limité à la bande de fréquence (— A, A), est égal à 


A=— 0 


où À (t) est le cocfficient de corrélation du processus. 
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3.3. Tenant compte du fait que le spectre d'amplitude de la fonction 


Re s'annule pour [w|> A [cf. (3.11)] quel que soit to, démontrer 
— {0 
l'égalité 
; ain : an 
sin A({—t9) : sin À (4—7) sin À (7 &) 
A(t—to) JE Ps | 
no 4(0-%) A(:-%) 


Conseil: utiliser le développement orthogonal de la fonction de corréla- 
tion (cf. $ 3.3.2). 

3.4. Démontrer que pour #{, quelconque la formule (3.4) peut être généra- 
lisée comme suit: 


= sin [A (e—: +) 
tu= à ! (++) ea (7) 


3.5. Montrer que l'estimation du maximum de vraisemblance de l’ampli- 
tude a d’un processus quasi déterministe as (4), élaborée d’après la réalisation 
z (t) observée sur l'intervalle (—T, T) de la somme de ce processus et d’un 
processus markovien normal stationnaire de variance 0° et de coefficient de 
corrélation R (t) = exp (—u|Ttl), est égale à 


i={fsen-Leen]sen+bo-ssa]-on+ 


+u ÈS s"() | 20) a} ÉœERIUE 
T 


+p {s: OO + Le co} aæ|". © 
-T 


Montrer que l'estimation (8) est non biaisée et que sa variance [cf. (3.112)] 
est égale à 


T 
M, {a} = 20? #(—7)+s (+ | {eo+ top) al. (9) 


Etudier le cas particulier s (t) = 1 et vérifier que l'on a 


T 
z(—T)+z(T)+u | z()dt 
T 


ETC ETS Sas 
M2 = ET (11) 

et pour TS 1 : 
— | dt, (12) 


2, 0? 
M; LL outre (13) 
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Expliquer pourquoi les formules (12) et (3.169) coïncident. 

3.6. Etudier le problème $ 3.6.5 en supposant que les résultats des observa- 
tions sont donnés non pas par la somme z(t) = s{t; 01, ..., Om) + E (t) 
mais par un échantillon discret x = (r1, . .., zx) où 2, = zt;) et ty sont 
les instants appartenant à l'intervalle d'observation (—7, T). Montrer que 
les estimations du maximum de vraisemblance du paramètre 8, peuvent s’écrire 
comme suit sous forme vectorielle [cf. (3.158)]: 


Ô =s1xX, (14) 
où 
X = s'k-lx, (15) 
S = s’k”is, (15°) 
k étant la matrice de corrélation normée de la composante aléatoire E (1) 
NK ; 
tr K° (16) 


où tr K est la trace de la matrice ‘de corrélation K, et s la matrice # X m dont 
les colonnes sont linéairement indépendantes (au sens algébrique), la j-ième 
colonne de la matrice est le vecteur s; de composantes s; (t1), . . ., sj (tx): 
j =1,..., m. Le signe « prime» désigne la matrice transposée. Montrer 
que l'estimation (14) est non biaisée et que sa matrice de corrélation est égale à 


M=— trK 


S71, (17) 


3.7. Montrer que dans les conditions du problème 3.6 l'estimation simul- 
tanée de Bayes de l’ensemble des paramètres ® — (6. ..., 0) pour une 
fonction de pertes quadratique peut s’écrire comme suit: 


À Oum (0) Lx (x | 0) dd 

à Q 

= [ wm (0) Lx (x ] 0) d0 (18) 
Q 


où &mn (Ÿ) est la densité de probabilité conjointe a priori des paramètres estimées 
ct le domaine de l’espace à m dimensions où cette fonction est donnée, la 
fonction !,; (x | 8) étant donnée par la relation 


InN(x|®0)=cxp LR s-s0) k-1(x—50) } : (19) 


3.8. Trouver l’infimum Mo2min de la variance des estimations non biaisées 
du paramètre o° d’un processus markovien normal stationnaire de fonction 
de corrélation (3.109), noyé dans un bruit blanc normal additif de densité 
spectrale Vs, les estimations étant obtenues d’après la réalisation du processus 


somme observée sur l'intervalle (—7T, T). Montrer que pour > 1 on a la 


formule asymptotique 


Mamie fé (do) 
oi AuT ter #4T 4 \OT] | 


Montrer que lorsque le temps d'observation est très inférieur au temps de 
corrélation du processus markovien (17 < 1) on a en vertu de (20) 


Momin _ 1 (2 È 
og 2 er) 


Voir également le problème 7.6 dans le premier tome. 


(20°) 


Chapitre 4 


FILTRAGE DES PROCESSUS ALÉATOIRES 


4.1. INTRODUCTION 


Dans le chapitre précédent nous avons étudié les estimations 
des paramètres inconnus et des fonctions caractérisant la répartition 
des probabilités d’un processus aléatoire d’après une réalisation du 
processus observée sur un intervalle de temps fini. Il existe un autre 
problème ayant une portée pratique très grande, il s’agit de la recher- 
che d’une transformation de la réalisation observée donnant la meil- 
leure, en un certain sens, estimation de la valeur d’un processus 
aléatoire à un instant donné, à l’intérieur ou à l'extérieur de l'inter- 
valle d'observation. Dans le cas général cette transformation est 
appelée filtrage du processus aléatoire. 

Deux paragraphes de ce chapitre seront consacrés aux transfor- 
mations linéaires. Laissant tout d’abord de côté la réalisation physi- 
que d’un filtre linéaire, on prend un intervalle de temps non limité, 
puis on restreint cet intervalle. Le critère de qualité de l'estimation 
de la valeur d’un processus aléatoire est dans certains cas la moyenne 
sur l’ensemble des réalisations du carré de l'erreur, c'est-à-dire Île 
carré moyen de l'écart de l'estimation de la valeur estimée, et dans 
certains autres cas le rapport de la puissance du signal utile à la 
puissance du bruit. On cherche l'estimation *) des valeurs du proces- 
sus aléatoire E (£) d'après la réalisation observée zx (£) de la somme de 
ce processus et d’un autre processus n (£), correlé avec E (4). En se 
basant sur des résultats généraux on étudie quelques cas particuliers 
présentant un certain intérêt pour les applications radiotechniques. 
En plus de l'estimation du processus E (4) il est également intéressant 
d’estimer, d’après la réalisation x ({) observée sur un certain inter- 
valle de temps fini (ou infini), des transformations linéaires de ce 
processus. On étudiera les modes de transformation linéaires suivants : 
déplacement de l'instant d’estimation sur l'axe des temps. déri- 
vation et intégration simples et multiples et combinaisons de ces 
transformations. 

Les questions de filtrage non linéaire d’après le critère de miui- 
mum d'erreur quadratique moyenne seront étudiées au $ 4.4. On 
y considère une des approches possibles de ce problème où les sysle- 
mes non linéaires sont caractérisés par une somme infinie d'intégra- 
les de Volterra. Par cette méthode on ne pent pas généralement 


*) Parfois on dit que l’on extrait un processus (signal) E (£) du mélanve 
de ce processus et d’un autre processus (bruit) n (t). 
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obtenir la solution exacte, c’est pourquoi on fait appel à des appro- 
ximations qui dans certains cas peuvent, dans une large mesure, 
diminuer l'erreur quadratique moyenne correspondant à un système 
linéaire optimal. 

Une autre approche du problème du filtrage non linéaire optimal 
consiste à limiter la classe des processus étudiés aux processus mar- 
koviens unidimensionnels ou aux composantes des processus marko- 
viens multidimensionnels {13}, [21]. Enfin, on utilise parfois des 
méthodes quasi linéaires en introduisant un paramètre de petite 
valeur (par exemple, le rapport signal/bruit défini d’une manière 
adéquate) [9], [OÏ. Ces deux méthodes ne sont pas étudiées dans le 
présent ouvrage et nous recommandons aux lecteurs intéressés de se 
référer aux ouvrages mentionnés ci-dessus. 


4.2. FILTRAGE LINÉAIRE D'APRÉS LE CRITÈRE 
DE MINIMUM DU CARRÉ MOYEN DE L'ERREUR 


4.2.1. Fonction de transition impulsionnelle d’un système linéaire 
optimal. Soit x (t) une réalisation du processus somme E (4) + 
— n (4), définie pour toutes les valeurs réelles de £. Adoptons pour 
l'estimation de E (£) la valeur filtrée de la réalisation (cf. $ 5.2, 
tome Î) 


E (1) = | ht, T)z(r)dr, (4.1) 


—œo 


où À (4, t) est la fonction de transition impulsionnelle d’un filtre 
linéaire idéal. 

Les intégrales des processus aléatoires sont ici et par la suite 
supposées convergentes en moyenne quadratique (cf. $ 3.5, 
tome ÏÎ). 


Notons avant tout que l'estimation (4.1) est en général biaisée 
car 


mi {É ()} = { h(E, T)[a:(t) Ha, (t)] dt = a: (6), 


© 


où æ(t) et an (t) sont les moyennes des processus E (£) et n (+). 
La moyenne (sur l’ensemble des réalisations du processus aléatoi- 


re) du carré de l'erreur E (£) — Ë (1) pour cette estimation est égale à 
e? (4) = ms {LE (2) — Ë (0°). (4.2) 


Calculons la fonction de transition impulsionnelle d’un filtre linéai- 
re, qui présente la moindre erreur quadratique moyenne &° parmi 
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tous les autres systèmes linéaires .*). 
En portant (4.1) dans (4.2) il vient après simples transformations 


e({)=ms {er (9 —2 | h(t,Tt)z(r)ë(t) dr + 
+ { | h(t,u)A(4, v) z (u) z (o) du dv} = 


= m, {E (#)} —2 | h(t,u)mi{x(r)E(t)} dr + 


9 © 


L { [ace u)h(t,v)m {z(u)z(v)}du dv. (4.3) 


00 0 


Supposons que l’on connaisse les fonctions de corrélation B: (t1,$t2) 
et Bn (4, 12) des processus Ë (t) et n (4) et leurs fonctions de corréla- 
tion mutuelles B;n (4, t2), Bne (1, t2). Comme 


miz(u)z(v)} = Bu, v)= Biu, v)+ Br (u, v) + 
+ Bu, v) + Bn(u,v), (4.4) 
my {x (T) 8 (6)} = Bas (tr, t)= Bit, 1) + Bin (rt), (4.9) 
on a à partir de (4.3) à (4.5) 


e°(t) = B;(t,t)—2 | k(£, T) Ba (tv, à) dt + 


+ | {Ace u)h(t,v) B;(u,v)dudv. (4.6) 


—00 —œ0 


On voit de (4.6) que l’erreur quadratique moyenne de l'estimation 


linéaire Ë (t) dépend seulement des fonctions de corrélation et de 
corrélation mutuelle des processus & (£) et n ({) et ne dépend pas 
de la structure plus fine de ces processus. 

Nous allons montrer que siB£, Bn, Bin et Bn: sont données, 
le meilleur (au point de vue du critère adopté) filtrage linéaire du 


*) Soulignons une fois de plus que l’on recherche l’optimum dans la classe 
des systèmes linéaires. Il est évident que dans certains cas, en utilisant des 
systèmes non linéaires, l’erreur peut être inférieure à celle que donnerait le 
système linéaire optimal. Si les processus E (4) et n (t) sont des processus aléa- 
toires normaux, l’optimum absolu, comme nous allons le montrer, est toujours 
réalisé à l’aide d’un système linéaire. Le problème étudié ici du filtrage linéaire 
est une généralisation de la régression quadratique moyenne linéaire (cf. annexe 
XI) au cas des processus aléatoires. 
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processus Ë (£) et de son mélange avec n (t) sera réalisé par un système 
linéaire dont la fonction de transition impulsionnelle satisfait 


L] 


à l’équation intégrale *) 
Ba(r,t)= | h°(4, y) Be (x, y) dy. (4.7) 


Substituons (4.7) dans (4.6) et montrons que l'erreur e° (f) est mini- 
male si hk(t, T7) = h* (4, x). En effet on a 


oO © 


et ()= Be (92 À À, r)h%(E, y) Bet, var dy+ 


0 —®@ 


+ | | h(t,u)h(t, v) B. (u, v) du dv = 


= Bi, | n° r)Re(E, y) Br, y)drdy+ 


1- | | B,u,v)[hk(t,u)—h"(t,u)][hk(t, v)—h*(t,v)] du dr. (4.8) 


Comme seul le dernier terme de (4.8) contient la fonction inconnue 
h (t, u) et qu'il n'est pas négatif (car la fonction de corrélation 
B, (u, v) est définie positive, cf. $ 3.3.1), le minimum de e° corres- 
pondra à un système linéaire dont la fonction de transfert annule 
cette erreur. Il est facile de voir que ceci a lieu si h (t, u) = h* (t, u), 
ce qu'il fallait démontrer. 

En vertu de (4.8). le minimum de l'erreur quadratique moyenne 
pour un système linéaire optimal est égal à 


Emin ({) = Bs(t, t) — | | h*(t,u)k*(t,v) B.(u,v)dudr (4.9) 


ou, compte tenu de (4.7), 
élan (= Be(é, 9) — À h°(, u) Biz (u, d du. (4.9) 
En utilisant la relation (5.14) du premier tome on peut écrire 
(4.9) comme suit : 
Ein (4) — Be (#, # — Ba (4 à). (4.9) 
c'est-à-dire que le minimum du carré moyen de l'erreur est égal à la 


*) Ici nous ne démontrons que la condition est suffisante, le fait qu’elle 
soit nécessaire est démentré, par exemple, dans [4]. 
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différence des carrés moyens des valeurs du processus estimé et de 
l'estimation *). 

La grandeur Ein ({) peut également s'exprimer en fonction de 
l'intégrale de la différence des spectres énergétiques instantanés du 
processus & (t) et de son estimation linéaire Ë& (4). En vertu de (4.9”)on a 


[e 


° 1 
ein (t) = | (D: (4,0) — D; (+, &)] de, 
0 
où O (4, w)est le spectre énergétique instantané, l'indice de ® dési- 
one le processus auquel correspond le spectre. 


Notons que pour les processus E (£) et n ({) non cohérents **) les 
équations 


Bu, v) = B:(u, v) + B, (u, v), (4.10) 
Be (u, v) = B (u, v) (4.10) 
et l'équation intégrale de base (4.7) deviennent 


Bs(r, = | h°(, y)[Ber, y)+ Bar, yldy, (411) 


et la formule (4.9) s'écrit alors 


etin (4) = B4 (1, t)— { | h°(t,u)A*(t, v) x 


X [Be (u, v)+ Ba (u, v)] du du = B, (4, t)— | h*(t, u) B: (u, 1) du. 


(4.117) 
Si les processus E (£) et n (f) sont stationnaires et stationnairement 
liés (du moins au sens général) et le filtre est un système linéaire de 
paramètres constants, l'équation intégrale (4.7) donnant la caracté- 
ristique de transition impulsionnelle s'écrit comme suit : ***) 


Ba: (x) — | h° (2) B,(r—2)d2, (4.12) 
dans le cas où les processus E (£) et n (£{) ne sont pas cohérents on a 
B:(n= | #°()IB(T—2+ Bts (412) 


+) En vertu de (4.9°) on a B. (4, t) << B: (t. t). 


**) Ici on comprend la non-cohérence de deux processus aléatoires au sens 
défini page 158 du premier tome. Cette définition diffère également de la notion 
de « signal cohérent » ou de « signal non cohérent » souvent utilisée dans la 
technique des impulsions pour distinguer le cas où l’on connaît la phase du 
signal porteur H.F. de celui où cette phase est aléatoire. 


0 L'équation intégrale (4.12) est souvent appelée équation de Wiener- 
Hopi. 
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La valeur du carré moyen de l’erreur ne dépend pas de l'instant où 
l’on procède à l’estimation de la valeur du processus E (£), et son 
minimum, en vertu de (4.9), est égal à 


etin = Bx (0) — { | h* (u) 2* (v) B. (v— u) du dv — 
— B,(0)— | h(v) Ba (v) du (4.13) 
ou L 
Etin = B: (0) — Be (0) , (4.13) 


c'est-à-dire que le minimum du carré moyen de l'erreur est égal 
à la différence des puissances moyennes du processus estimé et de 
l'estimation. 

En exprimant les puissances moyennes en fonction des spectres 
énergétiques des processus [cf. (5.22), tome I] on peut écrire la gran- 
deur £%in comme suit : 


Sin = ge À LFe (&) — Fe (o) | K* (ia) F1 du, (4.14) 
Fx (0) = Fe (+ Fa (0) + Fin (0) + Fne (0), (4.45, 


où Æ* (iw) est la fonction de transfert d’un système linéaire optimal; 
F3; (©), Fn (©), Fin (o), Fne (@) sont les spectres énergétiques et les 
spectres énergétiques mutuels des processus & (4) et n (6). 

Ainsi, le problème de la recherche du système linéaire optimal 
se réduit, dans le cas envisagé, à la solution de l'équation intégrale 
(4.12) qui, mise à part la possibilité de réalisation physique. s'obtient 
par transformation de Fourier des deux membres de (4.12). Comme 
le second membre de (4.12) est la convolution des fonctions dont les 
transformées de Fourier sont respectivement Æ* (io) et F, (w), on a 


Fi (0) = Fe (o)+ Fin(o)= #F (io) F+ (o), 
d'où compte tenu de (4.15) on trouve 


Fr (o) Fa (@)+ Fin (©) 
Fr@) Fi) + 0) + Fan (0) + Fin ©) 


En portant (4.16) dans (4.14) on obtient le minimum de l'erreur qua- 
dratique moyenne : 


k* (iw) — (4.16) 


F;(@) Fr (0) —| Frs (0) |? 


1 
Enin Tr | F;(&) 
0 


do. (4.16°) 
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Si les processus & (4) et n (£) ne sont pas cohérents, on a F:, (w) = 
= Fy(o) = 0 et en vertu de (4.16) 

Fz (w) 
FR) + Fr (v)° 
Comme le second membre de (4.17) est réel, il se trouve être la carac- 
téristique de fréquence d’un filtre linéaire optimal (la caracté- 
ristique de phase est dans ce cas identiquement nulle). 

En vertu de (4.16”) pour F4 (©) = Fi (©), F, (©) = F3 (©) + 
+ FA (w) on obtient pour des processus non cohérents 


k* (iw) = (4.17) 


1 [ F; (@) Fn (6) 


2 
Ermin — Dr 


| Fe) + Fa) do. (4.18) 

La formule (4.18) montre que l’erreur dans un système linéaire 
optimal ne peut être nulle que si les spectres énergétiques des proces- 
sus Etjet n (f)ne se recouvrent pas, c'est-à-dire lorsque 
Fr (©) Fn (wo) = 0 pour toutes les valeurs de ©. Dans le cas contraire 
une erreur est inévitable. Pour qu'il n’y ait pas recouvrement il est 
évident qu'il faut que les spectres énergétiques F: (w) et F, (w) 
sur certains intervalles de l'axe des fréquences soient identiquement 
nuls *). 

Ainsi, le filtrage d’un processus aléatoire stationnaire noyé 
dans un autre processus aléatoire stationnaire avec une erreur quadra- 
tique nulle (singularité) correspond au cas où les spectres énergé- 
tiques de ces processus ont des zones de fréquence où ils sont identi- 
quement nuls. 

Lors du filtrage du processus Ë (f) noyé dans un bruit blanc de 
spectre Fn (@) = V,, (4.18) donne 


e No ce F: (w) dw 
Emin— 5 | Fe) FM (4.19) 
(Ù 


c'est-à-dire que dans ce cas la présence d’un bruit blanc exclut toute 
singularité (cf. $ 3.4.6). 

4.2.2. Système linéaire optimal physiquement réalisable; temps 
d'observation fini. Un système linéaire dont la fonction de 
transition impulsionnelle h* ({, y) serait donnée par l’équation (4.7) 
est physiquement irréalisable, car * ({, y) ne s'annule pas pour 
t y. Les relations obtenues au paragraphe précédent peuvent être 
interprétées comme suit : le filtrage a lieu après l'observation de la 
réalisation x ({) du processus somme Ë (ft) + n (£) sur tout l’inter- 
valle de temps de — o à co. Par conséquent, un tel système linéaire 


*) Notons que l’un des spectres doit être une fonction à support borné. 
Leur rapport est alors égal soit à zéro, soit à l'infini [cf. (3.147)]. 
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optimal permet d'estimer la valeur du processus à un instant donné 
avec un retard infini. La condition de réalisation physique signifie 
que lors du filtrage on utilise seulement la préhistoire de la réalisa- 
tion x (£) avant l'instant de l'estimation, autrement dit 


ht, 1)=0, t> t. (4.20) 


En portant (4.20) dans (4.1) on obtient l'estimation de Ë (#4) à l’aide 
d'un filtre linéaire physiquement réalisable 
t 
Ë (4) — | h(t,T)z(x) dr. (4.21) 
Dans l'estimation (4.21) on utilise toutes les valeurs de la réali- 
sation précédant l'instant £. Si on a une réalisation zx (rt) de longueur 
finie 7, c'est-à-dire si l’estimation à l'instant #£ s'effectue d'après 
les résultats des observations sur un intervalle fini (£ — T, t), on 
aura au lieu de (4.21) 
t T 
Ë (4) — { he Dent À R(, 1—u)z(t—u) du. (4.22) 
Ü 


t—T 


En portant (4.22) dans (4.2) et après les mêmes transformations que 
dans (4.3), on obtient pour le carré moyen de l'erreur, compte tenu 
de la possibilité de réalisation physique du filtre et de la durée 
finie de la réalisation du processus, l'expression suivante: 


T 
e*(t) = B:(t, 1) —2 | h(t,t—T) Br: (t—7T,t) dt + 
0 


+| 


En utilisant (4.23) il est facile (comme au $ 4.2.1) de montrer que le 
meilleur, d’après le critère du minimum du carré moyen de l'erreur, 
filtrage de E (t) du mélange de E (ét) et de n (f) est assuré par un sys- 
tème linéaire dont la fonction de transition impulsionnelle satisfait 
à l'équation intégrale suivante : 

T 


Baz(t—T,t)= { het t—y)B(t—Ttt—y}dy. O<T<T. (4.24) 
0 


h(t,t—u)h(t,t—v) B;(t—u,t—v)du du. (4.23) 


E 


Le minimum du carré moyen de l'erreur correspondant au filtrage 
par un système linéaire optimale [cf. (4.9°)] est égal à 
T 
elun() = Be(t,t)— | h°(4 tu) Bx(t—u,t)du. (4.25) 


0 


4.2] FILTRAGE LINÉAIRE 241 


Pour des processus stationnaires et stationnairement liés E (4) 
et n (£{) et pour un filtre de paramètres constants, on a à partir de 


(4.24) et (4.25) 


T 
Ba(r)= | h*(y)Bk(r—y)dy, 0<T<T, (4.26) 
0 
T 
Enin — Bz (0) — { h* (u) B;;(u) du. (4.27) 
(1 


Si dans ces formules on fait tendre 7 vers l'infini, on obtient le 
cas d’un temps d'observation infini précédant l'instant de l’estima- 
tion. 


4.2.3. Estimation d’un processus après sa transformation linéaire. 
On peut maintenant étendre la méthode exposée ci-dessus à l’esti- 
mation des valeurs non pas du processus Ë ({) mais de sa transformée 
& (9. Comme précédemment, l'estimation de & (f) s'effectue par 
filtrage linéaire de la réalisation x ({) du mélange additif de Ë (4) 
et de n ({) observée sur un intervalle de temps fini (£— T, t), 
c'est-à-dire 


& (4) = | ha(t, t—u)x(t —u) du. (4.28) 


Le carré moyen de l'erreur pour une telle estimation est égal à 


T 
eë (4) = m {Lt | hi(t,t—u)z(t—u) au |} - 


T 
— B.(1.t)—2 | Rift, t—T) Ba (tt, t) dr + 
0 


TT 
+ | l'AG, t—u)h(t,t—v) B.(t—u,t—v)dudu, (4.29) 


° 
ÙU 0 


où 


B x; (£1 Le) = mm; {x (é:) # (£2)} + B;: (Li Le) + By (£: Lo). (4.29") 
La meilleure du point de vue du critère de minimum de ef esti- 
mation & (£) s'obtient à l’aide d’un filtre linéaire, dont la fonction 
de transition impulsionnelle h*,(£, t) satisfait à l'équation inté- 
grale [cf. (4.24)] 
T 
Ba: (t—T, t)— | hé (ty) B(t—tt—y}dy, 0LT<T. (4.30) 
Ü 
16—0682 
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Le minimum du carré moyen de l’erreur est égal à 
T 
Efrmin = Be (ts t)— À AŸ (4, t—u) Bax(t—u,t)du. £(4.30') 
0 
Pour des processus stationnaires les formules (4.30) et (4.30'} 
s'écrivent comme suit: 


T 
Ba(n)= | (y) Be(t—y)dy, 0<r<T, (4.31) 
0 


T 
Etmin = B:(0)— | h* (u) B,: (u) du. (4.31°) 
0 


Les différentes formes de transformations linéaires de E (t} 
influent seulement sur la fonction de corrélation B: (4, £>) et la 
fonction de corrélation mutuelle B ,+ (44, {). Nous allons donner ces 
expressions pour les trois types les plus importants de transforma- 
tions linéaires. 

Soit 
C(#) = E (+ to). (4.32) 


B; (4, t)= Bg (Et + to t + to), (4.33) 


Bx: (4, Lo = B: (4, Lo + Lo) + B (é, Lo + Lo). (4.33”) 
Le cas ?, => 0 *) ou {, << —T correspond à l'extrapolation du proces- 
sus aléatoire et le cas —T << t, L 0 à l’interpolation. 
Si £ (4) est dérivable en moyenne quadratique et 
C (e) = E'(t), (4.34) 
on a (cf. $ 4.3.3, tome ÎI) 


On a alors 


B.() EU (4.35) 
Bx; (4 t:) = HE + EE, (4.35'} 

Pour le processus . 
= | e@DEmar, (4.36) 
où g ({, T) est une fonction Année. on obtient (cf. $ 5.2.1, tome I) 
B-(t,t)— [ [ gt, vi) g(E, ve) Ba (01, Le) dur du, (4.37) 


Balls t)= À 82 0) Bite v)do+ À 8 (62 v) Br (rs 0) do. (4.37) 


*) On appelle parfois le cas 15 > 0 pronostic. 
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Dans ce cas l'estimation & (#) [cf. (4.28)] faite d’après la réalisa- 
tion de la somme E (t) + n(f) observée sur un intervalle de temps 
fini, peut être interprétée comme une estimation optimale, du point 
de vue du critère de minimum du carré moyen de l'erreur, du proces- 
sus à la sortie d’un système linéaire de fonction de transition impul- 
sionnelle g (4, tr) donnée, lorsqu'on applique le processus & (£) à son 
entrée. 

Notons que pour gt, t) —6ô(T—#—15,;) à partir de (4.36)- 
(4.37) on obtient les formules (4.32)-(4.33") et pour g (ft, t) — 
ô’ (6 — t) les formules (4.34)-(4.35'). 

On peut utiliser les formules (4.30) et (4.31) si l’on veut obtenir 
l'estimation linéaire optimale du processus & (4) qui est le résultat 
de la transformation de E (f) dans un système linéaire de paramètres 
aléatoires. En utilisant la relation (5.112) du premier tome on peut 
écrire la fonction B: (f, t) comme suit: 


C0 


AT in) [ [ | Be(e, 1, @4, @e) X 


—00 —O00 —O00 — 00 


X B:(t—u, 1— 1) eitoiutot) du, do, du dv, (4.38) 


« 


ou 
Betis les ©, Oo) = m4 {h (ions, ti) k (iwe, t2)} (4.38') 


est la fonction de corrélation d’un système linéaire. On suppose que 
la fonction de transfert d’un système linéaire X (iw, t), représentant 
le processus aléatoire, ne dépend pas de E (+). 

La fonction de corrélation mutuelle B,4 (4, t2) s'écrit dans ce 
cas comme suit : 


O0 oo 


B:x (trs L)= 5 | | kc (i®, le) X 


Oo — 00 


X [Ba (lis te — 0) + Bin (1, la — v)] et” do du, (4.39) 


® 


où 

ke (io, 1) = m,{k (io, t)} (4.397) 
est la valeur moyenne de la fonction de transfert d'un système li- 
néaire. 

4.2.4. Le filtrage en tant que problème de régression. Le problème 
de filtrage linéaire étudié ci-dessus peut être interprété un peu dif- 
féremment. Soient € (£) et E (7) deux processus aléatoires dépendants 
et supposons qu'il y ait lieu d'estimer la valeur du processus & (#) 
par filtrage linéaire de la réalisation x ({) du processus E (4), en 
choisissant la caractéristique du filtre d’après le’critère de minimum 
du carré moyen de l'erreur. La fonction de transition impulsionnelle 


de ce filtre peut être obtenue à partir de l'équation intégrale (4.30) 
[ou (4.31) pour des processus stationnaires]. 


16* 
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Ainsi, le problème de filtrage est une généralisation au cas des 
processus aléatoires du problème de régression quadratique moyen- 
ne linéaire des variables aléatoires (cf. annexe XI). L'équation 
intégrale de Wiener-Hopf (4.31) est analogue à un système d'équations 
algébriques linéaires déterminant l’'hyperplan de la régression qua- 
dratique moyenne dans l’espace des échantillons de dimension finie 
[cf. (7) dans l'annexe XI. 

Sous une forme générale la fonctionnelle de la régression donne 
l'estimation du processus & (1) d’après la réalisation zx (t) observée 
du processus £ ({) comme une moyenne conditionnelle 


G(t) = m {6 (4) | x (0)}. 


Cette estimation minimise le carré moyen de l'erreur mi {(& — &)°}. 
La moyenne conditionnelle n’est pas toujours une fonctionnelle 
linéaire de la réalisation x (4). Ce n'est que si les processus Ë (f) et 
6 (£) sont normaux (simultanément) que la fonctionnelle de la régres- 
sion est toujours linéaire (cf. annexe XI ainsi que $ 4.4.4). 

4.2.5. Filtrage d’un signal quasi déterministe. Pour illustrer 
la théorie du filtrage optimal nous allons tout d’abord étudier le 
problème de filtrage d’un signal quasi déterministe & (4) — as (t) 
dont la forme est déterminée par une fonction donnée s (t) et l’ampli- 
tude a est aléatoire. Le signal est noyé dans un processus aléatoire 
n (é) indépendant de a, de moyenne nulle et de fonction de corré- 
lation B (t,, t>). On demande de trouver la caractéristique d’un 
filtre linéaire donnant la meilleure (du point de vue du critère de 
minimum du carré moyen de l'erreur) estimation E& (t) — äs (t) 
d'après une réalisation du mélange additif E (t) + n ({) observée 
sur l'intervalle (4 — T, t). A cet effet il faut résoudre l'équation 
intégrale (4.24) en y substituant au lieu de B,: et B, les expressions 
suivantes [cf. (4.4) et (4.5)]: 


Br (tt —7T, 1) = mu {a} s(t — ts (4), (4.40) 
B,(t—T,t— y) = m {&}s(t—1)s(t— y) + B(t—7+T, t—y). 
(4.40°) 


Introduisons la notation 
m° —= m {a?}, 


pour le moment deux de l’amplitude. Après la substitution mention- 
née on obtient 

T 
mes (é—*)s(6)== | R* (6, 2— y) ms (1—r)s(— y) + 


(1) 


+ Bt—rti-yldy, OLT<T. (4.41) 
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Cherchons la solution de l'équation intégrale (4.41) sous la forme 
suivante : 


h* (t, +) = As(t) v (1), (4.42) 
où v (rt) est la solution d’une autre équation intégrale *) 
t 
{ v(u) B(y.u)du=s{(y), 1—T<y<t. (4.43) 
tÛT 


Portons (4.42) dans (4.41). Compte tenu de (4.43), il vient 
T 
mA [mt | o(—ys@—yayi1]|, 
U 
ce qui permet de trouver la grandeur À: 
t 


1 
h= mm (1+m° | v(:)s(:) dc) | (4.44) 
ÛT 
Ainsi, le filtrage optimal du signal quasi déterministe as ({) 
noyé dans le processus aléatoire n ({) peut être réalisé par un syste- 
me linéaire dont la fonction de transition impulsionnelle est 


AR pe EXK FESSES (4.45) 
1tm? | v(s)s(:) ds 
ES à 
où v (rt) est la solution de l'équation intégrale (4.43). L’estimation 
du signal à l'instant ? d’après la réalisation x (t) de son mélange 
additif avec n (£) observée sur l'intervalle (£ — 7, t) est 


[4 
T mis (4) | v(z)x(2) dz 
as(t) = | R% (4,10) x (tu) du = #5" , (4,46) 
0 


î 
1m Ï (2) s(z) dz 
i-T 
l'estimation de l’amplitude aléatoire du signal **) étant 
—_— 
m2 | w(:) zx (2) ds 
a — —_—_ . (4.46) 
14m? \ v(z)s(z) ds 
tT 


*) Dans le chapitre précédent nous avons déjà rencontré plusieurs fois 
une équation du type (4.43). 

**) Soulignons que l'estimation (4.46’) est, suivant le critère du carré 
moyen de l'erreur, l'estimation optimale dans la classe des fonctionnelles linéaires 
de Ja réalisation observée zx (t). On ne fait ici aucune hypothèse concernant 
la distribution du bruit additif. Pour m° — o cette estimation coïncide avec 
l'estimation du maximum de vraisemblance de l’amplitude d’un signal déter- 
ministe noyé dans un bruit normal additif [cf. (3.166)]. Notons cependant que 
(4.46) coïncide avec l'estimation de Bayes (3.190) lorsque la fonction de pertes 
est quadratique et le bruit est normalement réparti, en posant de plus dans 
(3.190) 0? = m° et ao =. 
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L'estimation a est biaisée, car en vertu de (4.46) on a 
t 
m° \ u(z)s(z) dz 


m, {a} = m, {a} "7 _— | (4.47) 
14m? | v(z)s(z) ds 
tT 


mais la relation (4.47) montre que pour m°—> œ cette estimation 
est asymptotiquement correcte. 

Trouvons le carré moyen de l'erreur en utilisant l’estimation 
(4.46). En vertu de (4.30°) et (4.40”) on a 


T 
€hin (t) = m?s° (t) — Àm° | s"({)s(t—Tt)u(t—T) dr — 
0 


t 
= ms? (#) | 1— | v (2)s (2) ds | 
tT 
ou, compte tenu de (4.44), 
in(t)=m{(@—a)s (= "SO (4.48) 
1m? \ v(z) s (z) dz 


I1 découle de (4.48) 


k m2 
M (@—0)} = —""%"——, (4.49) 
1+m2 | v(z)s(:)dz 
de plus, pour m°—+ le carré moyen de l'écart entre l’estimation 
â et l’amplitude estimée a du signal tend vers sa valeur minimale 
t 


égale à ( | v (z) s (2) di) “1, Le rapport 
t=T 
, . m° \ u(z) s(z) dz 
AC en ET, (4.50) 
m4 (a — 0) hmmoo 14. m° \ u(z)s(z) dz 
tT 

qui est inférieur ou égal à l'unité, montre de combien le carré moyen 
de‘l’erreur, calculé dans l'hypothèse que le moment deux de l’ampli- 
tude soit fini, est inférieur à cette grandeur dans le cas où le moment 
deux est infini. En comparant (4.50) et (4.47) on voit que 


ms {à} — em, {a}. (4.50) 


Dans le cas particulier du filtrage d’un signal quasi déterministe 
noyé dans un bruit blanc de densité spectrale W,, on a 


B(t,u)=Nô(t—u), D (T) = (r), 


1.2] FILTRAGE LINÉAIRE 247 


et à partir de (4.45). (4.48) on obtient 


m° 


Na s(t)s(T) 


h*(t,Tt) = ; (4.51) 
+ | s® (z) ds 
t—T 
Elan (4) = — "0 —. (4.52) 
11 — s? (z) dz 
à 


Les relations ci-dessus sont évidemment vraies dans le cas du 
filtrage d’un signal déterministe, si par m on entend l’amplitude du 
signal déterministe. Tous les résultats se rapportant à l’estimation de 
l'amplitude inconnue (non aléatoire) d'un signal déterministe, men- 
tionnés au $ 3.6.1 peuvent être obtenus à partir des formules corres- 
pondantes de ce paragraphe en faisant m° —+ co. 

Notons qu'en vertu de (4.46) la variance de l'estimation d'un si- 
gnal quasi déterministe, faite d’après la réalisation d’un mélange du 
signal et du bruit, est égale à la variance de la composante de bruit 
à la sortie du filtre, c’est-à-dire 

TT 
M {as (t)} — | | ht, t—u)h°(t, tv) x 


ÙU 0 


t 
X B(t—u, t—v) du du = Ms" (t) | v(z)s (2) dz — 
tT 
{ 
m® (| v(z)s(z)dz 
mis (ET, (4.53) 


(1+ m2 \ v (2) s (2) dz)* 
t-T 


En comparant (4.53) et (4.48) on trouve 
t 
: m® | w(z)s(z) dz 
M2 {as (4) _ t-T 
Ein (4) : 


1+m° \ u(z) s (z) dz 


<1, (4.54) 


ce rapport tendant vers l’unité pour m°—> co. 

4.2.6. Extrapolation pure. Notre second exemple sera consacré 
au problème de l’extrapolation des valeurs du processus aléatoire 
E (4) d’après une réalisation de ce même processus observée sur un 
intervalle de temps fini. On peut obtenir la solution de ce problème 
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particulier de la solution générale mentionnée au $ 4.2.3, à condition 
de poser (4) =E(t+1t,) et n( =0. La valeur extrapolée 
E (t + 4,) est obtenue par filtrage linéaire de la réalisation x (t) du 
processus E (4) 


Ë (4 + to) = | h(t,t—u)x(t—u)du, (4.55) 


U 


quant à la caractéristique de transition impulsionnelle du filtre, 
le meilleur du point de vue du critère de minimum du carré moyen de 


l'erreur, elle peut être obtenue à partir de l’équation intégrale sui- 
vante Î[cf. (4.30)]: 


T 
Ba (tt, tt) = | h° (6, £—y) B: (7, t— y) dy, OLT<T. (4.56) 
U 


La valeur (minimale) correspondante du carré moyen de l'erreur de 
l’extrapolation est [cf. (4.30”)] 


T 
E*(£, to) = B:(t+ to, t + to) — | A*(t,t—u) B:(t—u,t+to) du. 
y 
(4.57) 


La caractéristique de transition impulsionnelle k* (x) du système 
linéaire optimal de paramètres constants, permettant d'obtenir la 
valeur extrapolée 


T 
É(E + to) = | h* (u)z(£—u) du (4.58) 


d'un processus stationnaire (au sens général), est donnée par la solu- 
tion de l'équation intégrale suivante: 


T 
B:(t+t)= | h°(y)Bi(t—y)dy, OKTET, (4.59) 
0 


qui est un cas particulier de l'équation (4.56). Le carré moyen de 
l'erreur est alors 


T 
Ein (4e) = B (0)— | A* (u) Be (u + t5)du. (4.60)°) 


*) Notons que pour une extrapolation pure ne tenant pas compte des pos- 
sibilités de réalisation physique du filtre, l'intégration dans (4.58) à (4.60) 
s'effectue sur toutes les valeurs réelles de la variable. L’équation intégrale 
a alors la solution triviale h® (y) — Ô (y + to); l'estimation coïncide avec 


la valeur de la réalisation, donc E (t + to) = x (t + to) et le carré moyen de 
l'erreur est égal à zéro. 
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4.3. FILTRES ADAPTÉS 


4.3.1. Filtrage linéaire d'après le critère de maximum du rapport 
signal/bruit. Aux paragraphes précédents la qualité du filtrage 
linéaire était déterminée par la valeur de l'erreur. Souvent il est 
important que le filtrage assure un rapport signal/bruit maximal 
même au prix d'une forte déformation du signal. 

Soit x (t) la réalisation de la somme d'un signal déterministe s (t) 
et d’un bruit aléatoire n (t) stationnaire (au sens général) de moyenne 
nulle et de fonction de corrélation donnée B;, (t). On observe la réa- 
lisation sur l'intervalle de temps 7. L’estimation du signal est don- 
née par la valeur filtrée de la réalisation 


T 
S(t)—= | h(t)x(t— 7) dr, (4.61) 
Û 


où h (t) est la fonction de transition impulsionnelle à déterminer du 
système linéaire (de paramètres constants dans le temps). Pour le 
critère de qualité de l’estimation on prend le maximum du rapport 
signal/bruit à la sortie du filtre, ce rapport pouvant être facilement 
calculé pour un filtre linéaire (cf. $ 6.3.1, tome I). En effet, la for- 
mule (4.61) peut s’écrire comme suit: 


S(4)= 51 (8) + v (#), (4.62) 
où 
T 
s1 ({)— | h(t)s(4—% dr, (4.62°) 
T 
v (£) = | h(t)n(t—7) dr. (4.627) 


Le rapport signal/bruit est défini comme le rapport du carré du si- 
gnal à la sorties (to), à un certain instant {5, à la variance du bruit 
à la sortie du filtre ©; — M2: {v (t)}, c’est-à-dire 

signal s7 (10) 


PARUS (4.63) 


bruit og? 


On appelle filtre adapté un filtre linéaire, optimal du point de 
vue du critère de maximum du rapport signal/bruit. 

4.3.2. Fonction de transition impulsionnelle et fonction de trans- 
fert d’un filtre adapté. Calculons la fonction de transition impulsion- 
nelle d’un système linéaire pour lequel le rapport signal/bruit est 
maximal. Désignons cette grandeur par Umax. Dans ce cas, pour tout 
système linéaire de fonction de transition impulsionnelle h (t), 
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on a l'inégalité suivante [cf. (4.62), (4.63)] 
TT 


UmaxO$ — S? (40) = Umax | \ le (u) À (v) Ba (v—u) du du — 


Ù à 
_— (| h(t)s (Lo —T) dr)" >0, (4.64) 
0 


l'égalité correspondant à un filtre adapté. Il est facile de vérifier 
que le premier membre de (4.64) s'annule lorsque À (t)—h* (x; to) 


= 


satisfait à l’équation intégrale suivante: 
T 
fatr: L)Balt—tdt=k(t)s(t—t), O<1IST, (4.65) 
U 
où la constante k (£) est égale à 
T 


Fhs(T; to) s(40—7T) dt 
RE  _ _ La (4.66) 

maxi Mmax si (to) 
(l'astérisque signifie que les valeurs du signal s, et de la variance 
6 du bruit se rapportent au processus à la sortie du filtre adapté). 

Notons que si hk* (t; to) est la solution de l'équation (4.65), 
la fonction ch* (t; to) satisfait également à cette équation, c étant 
ici une constante et la grandeur um: restant inchangée. Ainsi, il 
suffit de calculer la fonction de transition d’un filtre adapté à un 
facteur constant (échelle) près. 

Dans le cas du filtrage d’un signal déterministe noyé dans un 
bruit blanc, la fonction de transition impulsionnelle d'un filtre adapté 
peut s'exprimer explicitement si dans (4.65) on pose B, (t — t) — 
= N,0 (t — t). En utilisant la propriété de filtrage de la fonction 
delta on obtient 


hR®(t: 4) = s(h—t), OLILT. (4.67) 


Par conséquent, dans le cas envisagé la fonction de transition 
impulsionnelle d’un filtre adapté est proportionnelle à l’image par 
rapport à l'axe vertical passant par le point { = t{, du segment du 
signal s (£) sur l'intervalle (40 — T, to) avec translation ultérieure de 
l'origine des coordonnées au point t —to (fig. 4.1). Dans le cas où 
Lo = T la fonction de transition impulsionnelle est l’image du signal 
par rapport à la verticale divisant en deux l'intervalle (0, T). 

La valeur maximale du rapport signal/bruit est égale à [cf. (4.64)] 


T 9 
[1 s2(to—+t) dr] 
û 


T 
a a | s(4—)ar, (4.68) 
t) 


No \ s° (to — T) dt 
Q 
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c'est-à-dire au rapport de l’'énergié du signal sur l'intervalle (£, — 
— T, to) à la densité spectrale NV, du bruit. 

La fonction de transfert Æ* (iw; to) d’un filtre adapté, dont la 
fonction de transition impulsionnelle est donnée par (4.67), est égale à 


co T 
k* (io; t)—= | R*(£: 1) etat ge = < 0. s(t—te-iut di = 
En - Û : to 
= F0 e-iuto | s (t) eïot dt 
to-T 
ou 
ke Go: t)= 0) 4: Tje-ivte, (4.69) 


No 


où A, (©; to, 7) est le spectre du segment du signal s (t) sur l’inter- 
valle (to — T, to), le trait désignant la grandeur complexe conjuguée. 
Ainsi, lorsque l’on extrait un signal de son mélange avec un bruit 
blanc, la fonction de transfert d’un filtre adapté est proportionnelle 
au spectre complexe conjugué du signal tronqué. 
On peut obtenir l’expression générale de la fonction de transfert 
du filtre adapté pour un spectre énergétique quelconque Fa (w) du 


s(t) h"(t) 


L F4 T Lg 0 T 


Fig. 4.1. Signal et fonction de transition impulsion- 
nelle d’un filtre adapté 


bruit si, renonçant à la condition de réalisation physique, on consi- 
dère une réalisation x (t) pour toutes les valeurs réelles de t et on écrit 
le signal comme suit [comparer avec (4.61)] : 


s(t)= | h°(t; )z(t—Tt)dr 


Dans ce cas l’équation (4.65) devient (pour toutes les valeurs réelles 
de à) 


| h°(t: LL) Balt—T)dr=k(t)s(to—t). (4.70) 
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Après transformation de Fourier des deux membres de (4.70) on ob- 
tient l'expression 


k* (io; to) Fn (@) = & (to) À, (@) e7iv, 


A, (o) étant le spectre du signal non tronqué, permettant de trouver 
la fonction de transfert du filtre adapté, soit : 


k* (io ; 4) = K (0) FE — e-iuto, (4.71) 


Le rapport signal/bruit maximal est en vertu de (4.64) égal à (cf. 
également $ 5.2.1, tome ÎI) 


[T h* (x, to) s(to— +) dt ]* 


a x == ——_—_————— 
[ [SO Ae(u;to) h*(v; to) Bn(v—u) du dv 
— C0 — 00 


O0 


E= [ k® (io ; to) À, (w) c'°! do |” 


— O0 
if | ; 
3x | Fn (o) | £* (io ; to) |* dw 


Substituant au lieu de À* (iw, t,) son expression (4.71) on obtient 
finalement 


1 C | 4, (w) [° 
pr FADE do. (4.72) 


Umax — 


Dans le cas d’un bruit blanc F, (w) = N, et en vertu de (4.72)ona 
[comparer avec (4.68)]: 


1 € / , 
bmx = | | As (©) do. (4.72) 


Notons que l'estimation du signal à la sortie d’un filtre adapté 
est en général biaisée car 


m; {s (t)}= ms (| R°(T; to) T(t—7T) dr} — 


T 
— | h°(t; b)s(t—r)dr=st(t)Æs(t). (4.73) 
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La variance de cette estimation est égale à la variance de la com- 
posante de bruit v (t) à la sortie du filtre adapté [ecf. (4.53)] 


T 
M, {s (4)} = 0Ÿ° | | h*(u; L)h*(v; to) Bn(v—u) du du = 


= 


T 
=k(4) | h*(u: t)s(t—u) du -=k (t)s* (4) = HE Lo (4.73°) 


Pour un bruit blanc on a en vertu de (4.73), (4.73”) et (4.67) 


ma {5 (0) = < C0) At —r)s({— tr, 


S k=° t a 
M, {S(L)} == = s°(t,—Tt)dr. 
0 


4.3.3. Filtrage optimal d'une suite périodique d'impulsions noyées 
dans un bruit blanc. Nous allons illustrer par un exemple simple les 
résultats du paragraphe précédent. A cet effet nous allons calculer 
la caractéristique fréquentielle d’un filtre adapté destiné à extraire 
une suite périodique d’impulsions noyées dans un bruit blanc. Soit 
To la durée d’une impulsion et w (t) une fonction différente de zéro 
sur l'intervalle 0 < t < to décrivant la forme de cette impulsion. 
Le spectre de l'impulsion est 

To 
Au (6) = | u (t) e-iot de. 


Û 


Pour une suite d’impulsions de période T 


s({) — D u(t—nT) 


le spectre est 
= Ç in nes A4 (w) 
AO 2 RO MES 
La caractéristique fréquentielle normée du filtre adapté (c'est-à-dire 
le rapport du module du coefficient de transfert à Fo 
vertu de (4.71) la forme suivante: 
C&)=|4,(@)=—2OL (4.74) 


CO 
2|sin = 


aura en 
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Si la durée d’une {impulsion tend vers zéro, la grandeur | 4, (o) | 
reste constante dans une gamme de fréquence de plus en plus large 
et la caractéristique de fréquence du filtre adapté tend vers la carac- 

téristique d’un filtre en peigne 


C(w) parfait (fig. 4.2) 
1 , 
C(&) — _. (4.74) 
2|sin 5 


Si le signal est un paquet d'im- 
pulsions de durée finie (conte- 
nant V impulsions) on a 


! 
| 
| 
| 
{ 
( 
| 
( 
| 
| 
N-1 


[) 27 4 QT  A,(w; N)— D Au (©) eine — 
n=—0 
Fig. 4.2. Réponse en fréquence d’un iNoT 
filtre en peigne — 4, (6) 1—e 
Eu Fe 4—e7ioT 


et en vertu de (4.69) on a pour la caractéristique fréquentielle normée 
du filtre adapté 
in NoT 
2 
. OT | 
sin 5 


C'(v)=| A, @)| 


4.75) 


Notons qu’au contraire de la caractéristique fréquentielle (4.74) 
2nk 


qui n’est pas limitée aux pulsations , où # est un nombre entier 


T 
9 /- 
+) [> 0, celle du filtre adapté, dans le cas 
d’une suite d’impulsions de durée finie, est limitée également aux 
pulsations multiples de la pulsation de cadence des impulsions, car 
en vertu de (4.75)ona 


quelconque et | À, ( 


c(Bt)= fa (4)| 


4.3.4. Filtre actif et filtre passif. Soit 


T 
S(t)— | h°(x)z(t— +) dx (4.76) 
0 


l'estimation optimale, du point de vue du critère de maximum du 
rapport signal/bruit, du signal, où k* (t) est la solution de l’équation 
intégrale non homogène (4.76) et x (1) une réalisation du mélange 
additif du signal et du bruit observée sur l'intervalle (t — T, t). 
Le dispositif assurant une telle estimation peut être interprété de 
deux manières différentes. Selon l’une des méthodes, un filtre adapté 
séparant un signal d’un bruit aléatoire stationnaire, peut être inter- 
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prété comme un système linéaire de paramètres constants dont la fonc- 
tion de transition impulsionnelle k* (+) est déterminée par la forme 
du signal et la fonction de corrélation du bruit [cf. (4.65). Dans 
le cas particulier du bruit blanc cette fonction de transition 
impulsionnelle s'obtient par réflexion du signal. 

Cependant, le dispositif donnant à sa sortie l'estimation (4.76) 
peut être interprété différemment. Soit un oscillateur donnant la 
fonction k* (+) comme solution de l'équation intégrale (4.65). L'esti- 


mation s (t) est alors obtenue à l’aide d’un corrélomètre où la fonction 
hk* (x) de l'oscillateur local se trouve multipliée par la réalisation 
reçue ayant traversée une ligne à retard, et le produit obtenu est 
alors intégré sur tout l'intervalle d'observation. Un tel dispositif 
de corrélation destiné à l'extraction du signal est parfois appelé jil- 
tre actif tandis qu'un système linéaire de fonction de transition impul- 
sionnelle k* (rt) est appelé filtre passif *). 


4.4 FILTRAGE NON LINÉAIRE D'APRÉS LE CRITÈRE DE 
MINIMUM DE L’ERREUR QUADRATIQUE MOYENNE 


4.4.1. Méthode générale permettant de caractériser des systèmes 
non linéaires. Dans les paragraphes précédents nous avons étudié 
les estimations d'un processus aléatoire, obtenues par filtrage linéai- 
re de la réalisation observée, et les caractéristiques des filtres linéai- 
res, optimaux vis-à-vis du critère de qualité adopté. Si l’on renonce 
à la condition de linéarité de l’ algorithme de traitement de la réali- 
sation observée, on peut, dans une classe plus large d’estimations, 
trouver des estimations qui pour le critère donné seront meilleures 
que les estimations linéaires. 

Lorsque l'on utilise un système linéaire pour la recherche des 
estimations, la relation existant entre l’estimation et la réalisation 
observée est donnée par une équation intégrale assez simple du type 
(4.61). Si pour l'estimation on utilise un système inertiel non linéai- 
re (avec des contre-réactions éventuelles), la relation simple entre 
l'estimation et la réalisation observée devient plus compliquée. 
En définissant un système non linéaire par une certaine équation 
intégro-différentielle non linéaire, on se heurte à des difficultés 
mathématiques importantes. Cependant, pour des systèmes linéai- 
res, on peut tout de même essayer d'établir une relation explicite 
entre les processus d’entrée et de sortie. 

La formule (9.5) du premier tome peut servir d'exemple de rela- 
tion de ce genre, cette formule exprime le processus & (t) à la sortie 
d’un circuit type (amplificateur — détecteur quadratique — filtre) en 
fonction du processus d'entrée x (t) = s (t) + E(t) sous la forme 


*) Conformément à la terminologie de D. Middleton [10], des filtres actifs 
et passifs sont des filtres adaptés de première espèce, du premier et du second 
type respectivement. 
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d'une intégrale double, soit: 


(€) = | | Ku, v)x(t—u)x(t—v) du dv, (4.77) 
où 7 
K (u, v)= | ha (u— +) ha (rt) A (v—T) dt; (4.78) 


h3 (t), h2 (t) étant respectivement les fonctions de transition impul- 
sionnelles de l’amplificateur et du filtre. 

Notons que pour le système non linéaire amplificateur-détecteur 
quadratique, c’est-à-dire pour k: (t) — Ô (t), le noyau Æ (u, v) est 


égal au produit 
K (u, v) = h, (u) k, (v). (4.78) 


On peut généraliser (4.77) au cas où la caractéristique de l’éle- 
ment non linéaire non intertiel du circuit type n'est pas parabolique, 


mais peut être approchée par un nombre fini de termes d’une série 
de puissances 


n 
R 
L— 


Au lieu de (4.77) on obtient alors 


CO 


G (4) = DE | . | K (u4, ..., Un) x ((—u:) ... 


R=1 — © 


...z(t—ur)du ...dur, (4.79) 


K (tu, ..., un) — | haut)... hilux—Tt)he(t) dt. (4.80) 


Pour h: (t) = Ô (x) le noyau multidimensionnel devient un produit 
de fonctions d’une variable, soit : 


Je 
K (us, .., u)= [] hi (ui). (4.80°) 


Bien que souvent les schémas des systèmes non linéaires compli- 
qués à contre-réaction puissent être remplacés par des circuits types 
étagés équivalents, nous indiquons la méthode générale permettant 
de caractériser un système non linéaire arbitraire. On part évidem- 
ment de l'hypothèse naturelle selon laquelle le processus à la sortie 
du système non linéaire est une fonctionnelle donnée sur l’ensemble 
des processus appliqués à son entrée. Selon un théorème remarquable 
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démontré en 1910 par le mathématicien français Fréchet *), pour 
toute fonctionnelle continue **) y [x (£)] il existe une suite de fonc- 
tionnelles y, [zx (t)] donnant pour z — © une approximation aussi 
bonne que l’on veut de y {x (t)]. La suite approximante s'écrit comme 
une somme d'’intégrales (intégrales de Volterra), soit : 


Un Le (= Ko À Ki (us) (us) dus + 


oO © 


SE | | Ko (u4, Uo) T(t—u) z(f— us) dus dus + .…. 
.—+ | 2 | Kn (Uy, ..., Un) T(t— Us) ... z(t—un) du ... dun. 


(4.81) 


L’affirmation de Fréchet est un théorème d'existence, car dans 
la formule (4.81) les noyaux Km» (u,, . .., um), m —1,2,... 
restent non déterminés, et seule la possibilité de trouver dans chaque 
cas concret une suite de fonctionnelles approximantes se trouve 
garantie. 

Le théorème de Fréchet est analogue au théorème bien connu de 
Weierstrass, se rapportant également aux théorèmes d'existence, 
sur l’approximation d’une fonction continue par une suite de poly- 
nômes. Généralement on réalise l’approximation des fonctions con- 
tinues à l’aide d’un ensemble des polynômes orthogonaux. De cette 
façon on peut trouver les suites correspondantes de noyaux 
Km (Us : - +: Um) permettant d'approcher les fonctionnelles par la 
formule (4.81) (cf. $ 4.4.5). 

Notons que l'expression (4.79) du processus à la sortie d’un cir- 
cuit type est un cas particulier de la relation (4.81) pour 


Nas 2: SU) AU: 52, 0), 


où la fonction À (u,, . .., u») est donnée par (4.80). 

Si Xm = 0 pour tous les m > 1, on obtient une transformation 
purement linéaire de x (t), Æ, (u;) étant la fonction de transition 
impulsionnelle du filtre linéaire. En ajoutant des termes dans la 
série (4.81) pour m >> 1, on introduit par là même une non-linéarité. 
L'ensemble des noyaux Ko, K1, . . ., An caractérise un filtre non 
linéaire de degré n. Conformément à cette terminologie, les filtres 
linéaires sont des filtres du premier degré. 


*) M. Frechet, Sur les fonctionnelles continues. Ann. de l'Ecole Normale 
Supérieure, 9° Sér., 1910, p. 27. 

**) Pour la notion de continuité dans l’espace des fonctionnelles voir, par 
exemple, le cours de G. Schilov, À nalyse mathématique. Cours spécial (en russe). 
Physmathguiz, 1961, chap. 2, 8 7. 
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Enfin, il faut noter que le théorème de Fréchet, en toute rigueur, 
concerne les fonctionnelles données sur un ensemble des fonctions 
continues déterministes. Sans entrer dans le détail, nous allons sup- 
poser que les conditions requises se trouvent remplies et que le théo- 
rème soit vrai même si le processus d'entrée du système non linéaire 
est aléatoire. 

4.4.2. Filtres du second degré. Soit x ({) une réalisation de Ja 
somme de deux processus aléatoires stationnaires et stationnairement 
liés E (t) + n (4), déterminée pour toutes les valeurs réelles de t. 
Supposant que les moyennes des processus mentionnés soient nulles 
prenons pour l'estimation 


ÉG)= | Ai Cu) (us) dus + 
+ | | Ke Qu, u)z(t—u;)x(t—u:) du dus, (4.82) 


00 —œ 


où A, {(u,) = k* (u,) est la fonction de transition impulsionnelle du 
système linéaire optimal, donnée par l'équation (4.12). 

A la différence des estimations étudiées au $ 4.2, dans l’estima- 
tion (4.82) on voit apparaître un terme non linéaire. On voit s’ajou- 
ter ici à l’estimation optimale dans la classe des systèmes linéaires, 
un terme correcteur dû à la non-linéarité. Pour obtenir l’estimation 
(4.82) on a utilisé un filtre du second degré qui est un système non 
linéaire simple. [l s’agit de trouver la caractéristique X: (w,, wo) 
de la non-linéarité de telle sorte que le carré moyen de l'erreur 


ei = m {IE (4) —E ()F} (4.83) 
soit minimal. 


Soit £, (t) l’erreur obtenue si pour estimer E (£) on utilise seule- 
ment un système linéaire optimal, c’est-à-dire 


E()=8()— | Au) x Cu) dus. (4.84) 


Notons que l'erreur Ë, (£) n’est pas corrélée avec x (4) car, compte 
tenu de (4.12) on a 


mtr(t—v)E()}=m{z(—v)E()}— 


— | Rk* Qu) mx (t—v)z(t—u:)} du, = 


—œ 


= Bag (v) — | h* (u) B (us, —v) du, =0, 
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c'est-à-dire pour tout v 
m, {x (t — v) &i (t)} = 0. (4.85) 


Comme les processus sont stationnaires et stationnairement liés, 
en vertu de (4.82) à (4.84) on a 


OO © 


= B:,(0)—2 | | K: (us, Ue) Mix (ui, Ue) du, dus + 


+ \ | | | Ko (li, ue) X 
X Ko (gs Us) Max (Uy— Us, Ui— Us, Us — us) du; dus dusdus, (4.86) 


* 


ou 


Max(Uile) = Ms {6 ()r(— us) x(t—u2)} = 


= ma {E(t) &(t—u) x (t—u:)} — 


_ \ h* (us) m {x (t— ui) x (f— us) x ({ —u3)} dus — 


co 


= M:x(Ulo) e— | k* (u3) Mr (u; SET Us, U: = Ua) du; : (4.87) 


ma Qi Un, us) = mix (tu) ct us) x(t—u:)}; (4.88) 
mx (Uj—Uo, Ui—U3; Us — U) = 


=M{z({—w)z(t—-us)z(l—us)rz(t—us)}, (4.89) 


et B:, (0) coïncide avec le minimum de l'erreur quadratique moyenne 
donné par la formule (4.13), obtenue en utilisant des estimations 
linéaires. 

I1 découle de (4.86) que lorsque le dispositif d'estimation est un 
filtre non linéaire du second degré, l'erreur quadratique moyenne de 
l'estimation dépend non seulement des fonctions de corrélation et 
des fonctions de corrélation mutuelles des processus Ë (t) et n (ft), 
mais également des moments mixtes du troisième et du quatrième 
ordre. 

Pour trouver la condition imposée au noyau X’, (u,, u>) du terme 
non linéaire de l'estimation et donnant une valeur minimale de E;, 
on procède de la même façon que dans le $ 4.2.1. Montrons que si l’on 
se donne les moments mixtes des processus jusqu’au quatrième ordre 
inclus, le meilleur (vis-a-vis du critère adopté de minimum de l’erreur 
quadratique moyenne) filtrage non linéaire du second degré du proces- 
sus Ë (t) d’un mélange additif avec n (ft) aura lieu lorsque le noyau 
K2 (u,, u2) du terme non linéaire correcteur satisfait à l'équation 
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intégrale suivante: 


Mysx (Us, U2) = | | K3 (Us, Us) X 


X Mr (y — U, Us — Us; Uo — U4) dus dus. (4.90) 


Portons (4.90) dans (4.86) et montrons que l'erreur ei est minima- 
le si K2(u, v) = K% (u, v). Nous avons après substitution 


OO) O0 CO © 


ei — B:,(0) —2 | | | | K2(U1, U2) X 
X K° (Us, Us) Max (Uy—Uo, Uy— Us, Ur — U4) du, du, dus dus + 
+ | Î Î | K2 (Us, Uo) Ko (Us, Us) X 
X Max Ne Ui—Ug, Us —U,) du du, du; dus — 
= B, (0) — | | | | K* (1, ue) K° (Us, Us) X 
X Mx (ui — . a. Us — Ua) du, du, dus dus + 


oO © 


+ | | \ | [Ko (us, ue) — K3 (us, u2)] [Ka (us. 13) —- 
— K% (us, us)] Ms (Us — Ur, Uy— Us, U2— u4) du, du, du; dus. (4.91) 
Nous avons utilisé ici l'égalité évidente [cf. (4.89)] 
Max (Uy — Us, Uy — Us, Ur — Us) = M, (Us — Us, Us — Us, Ug—Uz). 
Comme seul le dernier terme dans (4.91) contient la fonction 
inconnue À 2 (u, v) qui n'est pas négative du fait que 
| | | | [Aou Us) — Ko (ts, U2)] [K2 (Us, Us) — 


—09 — 00 — 00 — 00 


— KŸ (us, U3)] Mx(Uy— Ur, Uy— Us, Ur — Us) du, dus dus du, = 


= M, {[ | | (Kou, v)— A? (u, v)]z(t—u) x(t—v) du dv |} > 0, 
la valeur minimale de e° correspond à un tel filtre non linéaire du 
second degré, pour lequel ce terme est identiquement nul. Ceci a lieu 
lorsque le noyau X, (u, v) du terme non linéaire correcteur est égal 
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à la fonction X% (u, v) qui est une solution de l'équation intégrale 
(4.90). 

En posant dans (4.91) K>: (u, v) = K° (u, v), cherchons la valeur 
minimale de l'erreur quadratique moyenne de l'estimation (4.82): 


OO © © 


nin= Bu (0) ( | | | A3, u2) K3 (Us, Ua) X 


X Mz(Ui— Us, U—Us, U— us) du;dudusdus (4.92) 
ou, compte tenu de (4.90), 


O0 © 


e min — ei min — | | K5 (ui, ue) Mix (U1, Us) dus du, (4.93) 
où 
2 2 
Ef min = #24 {E4 (4)}= By, (0) = Be (0)— À A*(u) Bax (u) du 
est l’erreur quadratique moyenne minimale de l'estimation linéaire 
[cf. (4.13)1. 

Ainsi,en utilisant un élément correcteur non linéaire dans un 
filtre du second degré on peut diminuer l'erreur quadratique moyenne, 
comparativement au cas de l'estimation par unsystème linéaire opti- 
mal seul, d’une grandeur égale à 


O0 © 


e2 min — ei min — | | K°5 (us, Ua) Mix (Us, Uo) du: dus. (4.94) 


—©0 > 


Etudions maintenant le problème d'un filtre optimal du second 
degré sous une forme plus générale en renonçant à l'hypothèse que 
le terme linéaire de l’estimation (4.82) soit donné. Nous allons trou- 
ver les deux fonctions X, (u) et K, (u, v) minimisant simultanément 
le carré moyen de l'erreur. 

En portant (4.82) dans (4.83) nous trouvons l'expression de la 
fonctionnelle e° qui dépend de deux noyaux inconnus du premier et 
du second ordre : 


€ — By (0)—2 | Ki (u1) Bex (u1) du, — 


O0 © 


— 2 | Î Ke (Us, Uo) Mex (Ui, Us) dus dus + 


© —o0 


+ Î Î K ; (u1) A1 (ue) Bx(u2 — u1) du; dus + 
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+2 | 


O0 
À Ki) Koss Us) mx (ui — us, di — Us) dits dus dus + 
— © 


+ Î Î Î Î Kz(us, 2) Ra(us, Us) X 


X Mx(Ui— Ur, Ui—Ug, Uo— Us) du; dusdusdus. (4.95) 


Tout comme précédemment, on peut montrer que le minimum du 
carré moyen de l’erreur correspond à un filtre non linéaire du second 
degré, dont les noyaux satisfont au système de deux équations inté- 
grales suivant : 


© © 


| | KA (to, Us) Max (Us — Ur, Ui—U3) dus dus + 
Fe | K* (ue) Ba (u2— ui) due = Bixus), (4.96) 


| | KS (Us: Us) Mx(Ui— Us, Uy— Us, Us — Us) dus dus + 


00 —00 


+ | K? (us) mx (ui — Us, Uy— us) dus = Myx (ui, ue). (4.96) 


Notons que si les processus & (t) et n (£) sont indépendants et si 
leurs répartitions sont sy métriques on à mn, (Uy — Us, Uy — us) = 0 
et le système d'équations (4.96)-(4.96”) se décompose alors en deux 
équations dont la première devient (4.12) et la seconde (4.90) car dans 
ce Cas M:x (Li, Us) —= Mzjx (Uy, U2). Par conséquent, lorsque la 
condition mentionnée se trouve réalisée, la solution obtenue ci-dessus 
pour le problème du filtre optimal du second degré est également vraie 
sans restrictions quelconques a priori imposées à la partie linéaire 
de l'estimation. 

4.4.3. Filtres de degré quelconque. On peut améliorer l'estimation 
du processus Ë (t) d’après la réalisation observée zx (t) de ce processus 
noyé dans un autre processus aléatoire n ({) en utilisant des filtres 
non linéaires de degrés plus élevés. En vertu de (4.81) on peut écrire 
sous la forme suivante l'estimation donnée par un filtre de degré n : 


n O0 O0 


= | . | Kilui, ..., ui) X 


j=i _ 00 er 
Xæz(l—u;)...z(t—ui)du, ...dui. (4.97) 
Le problème peut être posé ici de deux manières différentes. Tout 
d'abord on peut essayer de trouver une suite de noyaux 
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Kiu,), ..., K, (u, ..., u,) minimisant le carré moyen de l’er- 
reur, Soit : 

LU © 


= mi [8 (0) — EI) = ms ÊTES 
i—{ —oo 


À Kaas... wi)x(t—us) (fui) dus … dui |} . (4.98) 


La condition de minimum se réduil à un système de z équations 
intégrales par rapport aux noyaux inconnus, analogue au svstème 
(4.96)-(4.96”) pour n — 2. 

Un problème moins général mais donnant un résultat relative- 
ment simple est analogue à celuiqui a été mentionné au début 
du $ 4.4.2. On suppose que À, (u) soit égal à la fonction de transition 
impulsionnelle d’un système linéaire optimal, le noyau Æ»> (u,, u)) 
de l'élément correcteur non linéaire du second degré soit donné par 
l'équation (4.90) et le noyau Æ 3 (u,, u>, u3) de l’élément correcteur 
du troisième degré se trouve de la condition de minimum de #i. 
En ajoutant une non-linéarité du quatrième degré on trouve 
Ki (ui, Us, Us, us) à partir de la condition de minimum de e;, 
etc. On à ainsi une équation de récurrence donnant A7 (u,, . .., u,), 
si l’on connaît tous les noyaux optimaux jusqu'au degré n7 — 1 inclus. 

Désignons par Ë&,-_, (t) l'erreur obtenue en utilisant pour l’esti- 
mation de Ë ({) un filtre non linéaire de degré n — 1: 


n—1 co 
Ea()=E()— D | | Ki, -.. uræ(t—u) 
i=1 —o — 00 
...Z(t—u;)du;...du;. (4.99) 
On obtient alors à partir de (4.98) 


—®© 


En = M {[E-0— { —— { Kn (Us -.., Un) X 


—œo 


x z(£— us)... z(f—un) dus … dun |} sp. (0) 


— 2 | DE | Kn(Uys -.., Un) Menix (Uys +, Un) dus... dun + 


œ@ 


+ | ee { Kn (Us -.., Un) An (Un+ys + +1 Uon) X 


L X Mx(Uy, + -., Uon) dUy ... duon, (4.100) 
où 
Menyx (Us, +. Un) = Mu {En (t)z(t—u;)...x(t—ur)}; (4.101) 


Max (Us, ..., Uon) = MT (—u;) ... z(t—Usn)}, (4.102) 
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et B;,_, (0) coïncide avec l'erreur quadratique moyenne minimale 


pouvant être atteinte en utilisant les termes correcteurs non linéai- 
res jusqu'au degré z — 1. Pour calculer le carré moyen de l'erreur 
il faut, en vertu de (4.100), connaître a priori les moments mixtes 
des processus initiaux d'ordre 2n inclus. 

En procédant comme ci-dessus, il est facile de voir que le meilleur 
filtrage non linéaire de degré n#, optimal vis-à-vis du critère de mini- 
mum du carré moyen de l'erreur, du processus E (t) noyé dans un 
processus n (t) est obtenu si le noyau Æ, (u,, . .., u,) satisfait 
à l'équation intégrale suivante: 


MEn1x (ü, -.., Un) = 


[se O0 
= | ”_ À K (Unis ces Uon) Me (y +. Uon) düny - + duon. 


(4.103) 
Pour nr = 2 l'équation (4.103) devient (4.90). 
La valeur minimale de l'erreur quadratique moyenne de l’esti- 
mation donnée par un filtre non linéaire de degré nr est égale 


œ co 
nt] 2 . 
En min — É(n-1)min — | … | Ki (us, ... Un) X 
— 00 — 0 


X Minmix (Us +. Un) Us... dun. (4.104) 


Pour n = 2 la formule (4.104) devient (4.93). 

L'équation (4.103) est une relation de récurrence permettant en 
principe de trouver la caractéristique d’une non-linéarité correctrice 
de degré r optimale, connaissant les caractéristiques des éléments 
correcteurs optimaux de degré nr — 1. La formule (4.104) donnant 
une réduction supplémentaire du carré moyen minimal de l'erreur 
grâce à l'introduction d’une non-linéarité de degré nr, est également 
une formule de récurrence. Notons enfin que, tout comme dans la 
théorie du filtrage linéaire optimal, la méthode exposée ci-dessus 
peut être utilisée pour des cas plus généraux lorsque les processus 
E (t) et n (£) ne sont pas stationnaires, les réalisations de leur somme 
étant observées sur un intervalle de temps infini (ou semi-infini), 
l'estimation étant faite à partir d’une transformation linéaire du 
processus Ë (£) et non de ce processus lui-même. 

4.4.4. Filtrage d'un processus aléatoire normal. Nous n'avons 
jusqu’à présent fait aucune hypothèse spéciale quant à la loi de répar- 
tition des processus Ë (4) et n (t). Supposons maintenant que ces pro- 
cessus soient normaux. Il est alors facile de voir qu'en ajoutant des 
éléments non linéaires au filtre linéaire optimal on ne peut diminuer 
la valeur de l'erreur quadratique moyenne. 

Comme nous l’avons déjà montré, il peut y avoir un filtrage non 
linéaire du second degré, optimal vis-à-vis du critère de minimum du 
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carré moyen de l'erreur, du processus E (t) noyé dans un autre proces- 
sus n (é), si les caractéristiques À, (u) et X2 (u,v) du filtre non linéai- 
re vérifient de système d'équations intégrales (4.96), (4.96”). 
Pour des processus normaux on a M, (u, — Us, u — u3) = 0, 
Mix (U, U2) = 0 et, par conséquent, À% (u, v) = 0, donc, dans le 
sens indiqué, le meilleur filtrage est un filtrage linéaire. 

Nous allons montrer maintenant qu’en ajoutant un élément non 
linéaire de degré quelconque, on n'arrive pas non plus à diminuer 
le carré moyen de l'erreur. Soit 


E (4) — Ë (4) = E (4) — | . | Ka (y, -.., Un) X 


Xz(t—us)...z(t—uh)du,...dun, (4.105) 


où E, (£) est l'erreur donnée par un système linéaire optimal (cf. 
(4.84)]. En répétant les raisonnements ayant abouti à (4.103), on 
voit que le minimum du carré moyen de l’erreur (4.105) peut être 
obtenu si le noyau X, (ui, . .., u,) satisfait à l'équation intégrale 


eo) C0 
Mix (U1, ..., Un) = | ... | Kh(Un+t; ...) Uon) X 
— 00 — 00 


X Mze(Uy, -.., Uon) dUnyy -: don, RZ>1Â1. (4.106) 


Comme nous l’avons mentionné plus haut, l'erreur E, (£) n’est pas 
corrélée à x (t). Pour des processus aléatoires normaux E, (£) et x (ft) 
ceci signifie leur indépendance. C'est pourquoi dans ce cas 


Mix (Us .. .) Un) = M: {E (&) x (£ — U) sue (é ne Un) } vo 
= m {E ()}m {rt —u) ...r(t—u,)}, 
et comme 
ma {Ei(0)}= | A*(u) ms {x (t—u)} du =: 0, 


pour des processus normaux de moyenne nulle on a 


Mise (Us + + + Un) = 0. (4.107) 
En vertu de (4.106) et de (4.107) on a 
KY (u, ..., Un) =0, nr > 1. (4.108) 


Ainsi, le meilleur filtrage d’un processus aléatoire normal du 
mélange additif avec un processus aléatoire normal (dépendant en 
général du premier) est réalisé par un filtre linéaire optimal dont la 
fonction de transition impulsionnelle est donnée par l'équation 
(4.12). Ce résultat peut être généralisé au cas des processus aléa- 
toires normaux non stationnaires. 
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Le fait que le meilleur filtrage des processus aléatoires normaux 


soit linéaire est du à ce que la surface de régression pour un ensemble 
des variables aléatoires normales coïncide avec le plan de la régression 
quadratique moyenne (cf. annexe XÏT). 

4.4.5. Interprétation des filtres non linéaires. Exposée dans ce 
paragraphe la méthode du filtrage non linéaire, optimal du point de 
vue du critère de minimum du carré moyen de l'erreur, est basée sur 
l'utilisation de l’approximation d'une fonctionnelle continue par des 
suites de la forme (4.81). Un filtre de degré nr est caractérisé par la 
suite de noyaux Am (U, . . ., Um), M = 2,3, ..., n satisfaisant 
aux équations intégrales (4.103). En résolvant ces équations on peut 
en principe, d’après une réalisation donnée z (t) d’un mélange additif 
des processus aléatoires E£(£) et n (£), formuler conformément 
à (4.97) l'estimation E (t) d'un de ces processus pour laquelle la 


moyenne m, {[& (t) — E (t)l°} est minimale dans la classe des filtres 
non linéaires de degré nr. La réalisation pratique d’un filtre d’après 
une suite donnée de noyaux Æ, est liée soit à un algorithme compliqué 
de calcul, soit à une interprétation adéquate des noyaux. L'une de 
ces interprétations est basée sur le développement d’une fonction de 
plusieurs variables en séries multiples suivant des polynômes ortho- 
gonaux. 

Soit {Q, (x)} un ensemble des polynômes orthonormés dont la 
fonction de pondération est @ (x). On peut ainsi, dans de nombreux 
cas, développer le noyau X, (u,, . .., u,) en série multiple d’ordre 
n, soit: 


Ka us, -..,; Un) = (ts)... p(un) X 


OO 


V. .. Œms.. San Or (44) …. Qun (Un); n 1: (4.109) 


my=0 mn =} 


Comme les polynômes sont orthonormés, les coefficients de la série 
(4.109) sont 


Mn = Le + Ka ss da) Os ()-is 


- Qnin (Un) P(us) -.. pur) dus ... dun. (4.109) 
Portons (4.109) dans (4.81) et introduisons la notation 


Le, 


ra(= | Qutu)q(u)z(t—u) du, 
il vient |: 
Un [x (4)] = Xo + \ CRC D Am... m,Tm, (4) CR + Tm,, (t). (4.110) 


hk=1 m{=0 My = 
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L'expression (4.110) permet d'interpréter de la manière suivante 
l'approximation d’une fonctionnelle non linéaire. Soit un ensemble 
des filtres linéaires dont les fonctions de transition impulsionnelles 


sont 
hy (u) = q (u) Qr (u). (4.111) 
Les processus de sortie de ces filtres sont multipliés de toutes les 
manières possibles, les produits, pris avec des coefficients (4.109) 
tenant compte de la spécificité de la fonctionnelle, sont sommés. 
Pour des filtres physiquement réalisables la condition k, (u) = 0 
pour u << 0 se trouve remplie si l’on utilise l’ensemble des polynô- 


È 
& 
RS 
S 
S 
Q, 
à 
Fe 
= 
È 
S 
") 


Fig. 4.3. Schéma d'un filtre non linéaire du second degré 


mes de Laguerre (cf. annexe IV). Dans ce cas les fonctions de transi- 
tion impulsionnelles (4.111) appartiennent à un ensemble des fonc- 
tions orthogonales de Laguerre 


4  dn ——. 
—— mm { [/ e : u > 0, 
Jin (u) _ { n\ dun ( ) 


0, u << (0. 

Donnons à titre d'exemple l’expression approchée de la caracté- 
ristique d’un filtre non linéaire du second degré, lorsqu'on utilise 
l’ensemble des filtres linéaires de degrés zéro, premier et second. 
En vertu de (4.110) on obtient 
yo lr (1 Ko + aoto + &iti + Gore + Goo + (Go + G10)ZoZ1 + 

. + (ao2 + ao) Toz2 + Guté + (ai + Gus) Lite + arms, (4.113) 


ou 


(4.112) 


e"“x(t—u) du; (4.114) 


To = To(t) = 


Cm 8 
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Zi= TL (t)— Î (1—u)e"“x(t—u) du; (4.114) 


Û 


mem | (1—2+5) e"“x({—u)du (4.114”) 


et 
m—= | Ki(u)hm(u) du, m—0, 1, 2, (4.115) 
= | | Ka(u, v)hm(u) hn(v)du dv, m,n—0,1,2. (4.115) 


Le dispositif permettant de réaliser un filtre non linéaire du second 
degré, construit comme indiqué ci-dessus, est schématisé par la 
figure 4.3. 


Problèmes 


4.1. Soit & (t) un processus aléatoire, stationnaire au sens général, obtenu à la 
sortie d’un systeme linéaire de paramètres aléatoires lorsqu'on applique à l'entrée 
un processus aléatoire E (1) stationnaire au sens général, de spectre énergétique 
Fg (w). Montrer que l'estimation linéaire de & (1), optimale vis-à-vis du critére 
de minimum de l'erreur quadratique, faite sur une réalisation du processus 

(t), peut être obtenue en faisant passer cette réalisation à travers un filtre 

ont la fonction de transfert est égale à la moyenne x, (iw) de la fonction de 
transfert du système linéaire mentionné. Démontrer que l'erreur quadratique 
moyenne cst dans ce cas égale à 


Ein = | F: (o) [Bs (0 &©)—| #4 (éw) |*] du, (1) 


où Ba (T, &) cst la fonction de corrélation du système linéaire. 

4.2. Supposons que dans la position du problème du $ 4.2.3 on renonce 
à la condition de réalisation physique et que l'estimation du processus (4.36) 
s'effectue d’après une réalisation x (t) observée pour toutes les valeurs réelles de £. 
Supposons également que les processus Ë (4) et n (‘) soient stationnaires au sens 
général, la fonction g (t, t) étant telle que g (t, t) = g (t — +) et G (iw) la 
transformée de Fourier de la fonction g (t). Démontrer que la fonction de trans- 
fert du filtre optimal donnant l'estimation de & (t) d’après la réalisation du proces- 
sus somme E (4) + n (t) est de la forme 


Fxx (w) 
ke (io) =6G (iw) PACE , (2) 


et l'erreur quadratique minimale cst 


une gg | LG Go) E Fe (0) —1 8 (iu) [8 Fa (u)] du = 
U 
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1 f "Fe (©) Fr (@)—| Frs (0) [? | 
7% (IGGF = —<— (3) 
0 


4.3. Soit x (t) une réalisation du processus aléatoire somme d'un bruit 
blanc d’intensité No et du processus aléatoire indépendant E (1) obtenu à la 
sortie d’un circuit intégrateur RC lorsqu'on applique à son entrée un bruit 
blanc d'intensité W.. Montrer que la meilleure, vis-à-vis du critère de minimum 
du carré moyen de l'erreur, estimation de la valeur du processus E (1), extrapolée 
sur le temps to, faite sur la réalisation x (t), est de la forme 


Ë (t+ to) = 40 | z{t—ue tir D >0, (4) 
U 
où 
= as? -@lto. .2— N, __ 1 , 
He VÉT NÉ Re (4°) 


Trouver l'expression suivante de la valeur minimale du carré moyen de l'erreur 
d'extrapolation : 


: aN, [ s° —2at | 

= ——|1—— 5e 01,1 0. (5 

min 4 (1+V1+s) 0 > ) 

Obtenir à partir de (4) et (5) à la limite pour Vo —+> 0 (s° —+ co) les formules 
suivantes correspondant à l’extrapolation pure: 


É(t+to)=z(te"%0, #0 >0, (6) 


in — 7. (i—e-2ato), (1) 


Noter que le filtrage à l'instant ? s'obtient à partir des formules ci-dessus pour 
lo — VU. 

4.4. Pour les conditions du problème 4.3 montrer que, pour fo << 0, la 
meilleure estimation de la valeur interpolée du processus Ë (t) faite sur la réali- 
sation zx (1) cest: 


oo 
Ê(C—ltol)=——— | z(—u[ es VTES(u I to) 
] | 


vi + 5? 


9 1 Virs e”-% PE du. (8) 
14H VHS: 

En utilisant (4.31) trouver dans ce cas l'expression de l'erreur quadratique 

moyenne minimale d'interpolation. Vérifier que pour W, —+ 0 on a 


EG—ltol) = z(t— |tol), 
c'est-à-dire que l’estimation se réduit à un retard de |t, |. 
4.5. Montrer que le filtre adapté pour un signal continu s (4) = @ est un 


intégrateur parfait de fonction de transition impulsionnelle h* (t) -= au (t), 
où u(t) est un échelon unité. 


4.6. Montrer que pour un signal impulsionnel sinusoïdal 
s(t) = asin @ot, 0O<t1<T, woT = (2n+1)n, (9) 
la fonction de transition impulsionnelle du filtre adapté est 
h*(u)=a sin œou, u > 0. (10) 


Chapitre 5 


DÉTECTION DES SIGNAUX NOYÉS DANS LES BRUITS 


5.1. GÉNÉRALITÉS 


Dans la radio-électricité (télécommunications, radar, télécomman- 
des) divers dispositifs doivent résoudre des problèmes liés à l’émis- 
sion et à la réception de signaux noyés dans les bruits de nature dif- 
férente. La présence des bruits fait que l'information utile se trouve 
partiellement ou entièrement perdue. Ceci fait apparaître de nom- 
breux problèmes,en particulier celui de la conception (synthèse) ration- 
nelle de systèmes, consistant à trouver une procédure, optimale 
vis-a-vis d’un certain critère de qualité, de traitement du proces- 
sus observé. 

Deux types de problèmes peuvent se présenter. Le premier est la 
détection d’un signal en présence de bruits; il s’agit de décider, d'’a- 
près les résultats du traitement du processus observé, pouvant être 
soit un bruit, soit une combinaison d'un signal utile contenant une 
information codée et d’un bruit, si le signal reçu contient ou non un 
signal utile. Le second problème, plus général, est dans la sélection 
d’un signal (ou de plusieurs) dans un groupe de signaux noyés dans 
les bruits (discrimination des signaux). 

Si a priori on sait que le signal utile est présent dans le processus 
observé, le problème se pose de faire ressortir ce signal, noyé dans le 
bruit, en mesurant un certain nombre de paramètres informationnels 
du signal ou en le décrivant comme une fonction du temps. 

Le signal aussi bien que le bruit le déformant sont en général des 
processus aléatoires. De plus, notre connaissance du processus est 
basée sur des échantillons de taille finie sous la forme soit d'un 
ensemble de nombres (échantillon discret), soit d’une ou de plusieurs 
réalisations tronquées du processus observé (échantillon continu). 
Ceci explique pourquoi on résout le problème de traitement des pro- 
cessus observés pour en extraire l'information utile par une méthode 
de statistique. Il est déjà de tradition dans la radiotechnique moderne 
de considérer la réception des signaux comme un problème de statis- 
tique. 

Dans les chapitres précédents nous avons jeté les bases mathé- 
matiques permettant de résoudre les problèmes de détection et de 
discrimination des signaux novés dans les bruits. En effet, du point 
de vue formel, la détection estune vérification des hypothèses statis- 
tiques concernant les caractéristiques d’une variable ou d’un proces- 
sus aléatoires (chapitres 1 et 3),et la discrimination. une estimation 
des paramètres, ou un filtrage (chapitres 2, 3, 4). Tout comme la véri- 
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fication des hypothèses et la recherche d’une estimation, les deux 
problèmes de radiotechnique mentionnés peuvent être étudiés par 
la théorie des décisions statistiques [6], [15]. 

Dans ce chapitre et dans les chapitres suivants nous allons étudier 
en détail l’application des méthodes statistiques aux systèmes radio- 
techniques. Ces systèmes ont ceci de particulier qu'ils transmettent 
l'information par ondes électromagnétiques modulées à haute fré- 
quence, par suite, les processus à l'entrée des dispositifs de réception 
sont à bande étroite (en ce sens que la largeur de bande du spectre du 
processus est bien inférieure à la fréquence centrale du spectre, cf. 
tome Ï, $ 4.2.4). C'est pourquoi, en plus des processus à spectre arbi- 
traire, nous allons étudier séparément et plus en détail les processus 
à bande étroite dont les spectres se trouvent essentiellement concen- 
trés dans la bande de fréquences Les (As < oo). Nous avons 
montré au $ 6.2 du premier tome que ces processus peuvent s’écrire 
comme suit : 


x (t) —=r(t) cos [Lost + à (6), (5.1) 


où r (t), Ÿ (t) sont l'enveloppe et la phase lentement variables, dont 
les spectres sont pratiquement limités à la bande de fréquences 


(0, Àe ). C'est pourquoi, au lieu d’un échantillon composé de valeurs 


instantanées (x,, . .., xx) du processus observé, on peut utiliser 
un échantillon formé par les valeurs de l'enveloppe et de la phase du 
processus, soit (ri, Ÿi: los Vos + + «y TN ÙN). 

Parfois il est désirable avant tout traitement du signal reçu d'en 
séparer l'enveloppe et la phase (c’est-à-dire de procéder à une détec- 
tion), puis d'appliquer une procédure optimale de traitement de 
l'échantillon (r,, ..., rx) (méthode d'amplitude) ou (81, . .., Ü\) 
(méthode de phase). C'est pourquoi à côté des méthodes optimales de 
traitement des processus arrivant à l’entrée des dispositifs de récep- 
tion (traitement absolument optimal prédétecteur) nous allons étudier 
les méthodes de traitement optimal postdétecteur. 11 est évident que 
les méthodes optimales d'amplitude ou de phase ne peuvent pas être 
meilleures que les procédures optimales absolues, car la détection de 
l'enveloppe et de la phase est en général inéluctablement liée à 
une perte d’information. 

Dans ce qui suit nous nous bornerons au cas où les bruits sont 
additifs et statistiquement indépendants du signal et représentent 
un processus aléatoire normal stationnaire, de moyenne nulle et de 
spectre énergétique arbitraire. La structure du signal utile sera spé- 
cialement mentionnée dans chaque cas particulier. 

Dans le présent chapitre nous étudierons les problèmes de 
détection, et dans le suivant les problèmes de sélection des 
signaux. 
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5.2. ALGORITHMES OPTIMAUX DE DÉTECTION D'UN SIGNAL 
DANS UN BRUIT NORMAL ADDITIF 


5.2.1. Signal déterministe. Nous allons commencer par le cas 
simple de la détection d’un signal déterministe *) s (£) dans un bruit 
blanc additif normal. Il s’agit de vérifier l'hypothèse simple (H,) 
que le processus observé est stationnaire, normal, de moyenne nulle, 
contre l'alternative simple (Æ,) que ce processus est également nor- 
mal, mais que sa moyenne varie suivant une loi connue s (#). 

Pour les valeurs échantillonnées nous allons prendre (cf. $ 3.4) 
les coordonnées non corrélées 


T 
en Vi | (9) qu (0 de, (5.2) 
-T 


où zx (t) est une réalisation du processus observée sur l'intervalle 
d'observation (— T, T); À, et œ (t) étant les nombres caractéris- 
tiques et les fonctions propres de l'équation intégrale 


T 
pU)=2 | B(y—1)e(y)dy, [41<T, (5.3) 
2T 


où B (T) est la fonction de corrélation donnée du bruit **). 
En se limitant aux V premières coordonnées et compte tenu de 
(3.45) et (3.47) il est facile de voir que le logarithme du rapport de 


vraisemblance pour un échantillon x,, ..., zx de taille 4 peut 
s’écrire comme suit: 
N N 
In (zx, s2n)= Dusi—s Ds, (5.4) 
= i= 1 i1=1 
= Vi | s(t)qilé)dt, i-=1,..., N. (5.5) 
2T 


En utilisant la théorie exposée dans le premier chapitre et compte 
tenu de (5.4) nous pouvons formuler le test permettant de juger de 
la présence ou de l’absence du signals(£) d’après les coordonnées obser- 
vées Zi, . .., Zv dans un mélange additif avec un bruit. On adopte 


la décision (y,) sur la présence d'un signal, si pour l'échantillon 
observé on a 
N 


N 
Dasi>mc+s Ds, (5.6) 


i—1 i—1 


*) C'est ce qu'on appelle la détection cohérente. 
**) Les résultats exposés dans le chapitre 3 permettent de généraliser facile- 
ment la solution du problème étudié au cas d’un bruit normal non stationnaire 
de moyenne nulle et dont la fonction de corrélation est B (t, y). 
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et l’on adopte la décision (yo) sur l’absence de signal, si c’est l’iné- 
galité inverse de (5.6) qui est vérifiée. 
Ainsi, l'algorithme de la détection se réduit au calcul de la somme 


Ÿ xs et à sa comparaison avec le seuil 


— 
= 


N 
Ky=ine+s Ds (5.7) 


i= 1 


indépendant de l'échantillon observé. 

Cet algorithme est optimal vis-à-vis de tous les critères de qualité 
envisagés dans le premier chapitre (sauf ceux de l’échantillonnage 
progressif) : de Bayes (y compris les cas particuliers du maximum 
de la probabilité a posteriori et du maximum de vraisemblance). 
critère de Neumann-Pearson et critère du minimax. Seule la 
constante c (cf. table 1, page 35), c’est-à-dire la grandeur du seuil 
K, établi à l’avance conformément à (5.7), dépend du choix du critère 
de qualité. 

Tout comme dans la théorie générale de vérification d'une hypo- 
thèse simple contre une alternativesimple, lors de la détection d'un 
signal noyé dans des bruits, l’utilisation d’une stratégie établie 
à l’avance peut entraîner des erreurs de deux espèces. L'erreur de 
première espèce est appelée fausse alarme: la présence du signal est 
annoncée alors qu'en réalité il est absent. L'erreur de seconde espèce 
est appelée perte du signal: on annonce l'absence du signal alors 
qu’en réalité il est présent dans le processus reçu, mais il est masqué 
par le bruit. 

Soient G, le domaine de l’espace à W dimensions des échantillons 
satisfaisant à l'inégalité (5.6) et G, la partie restante de l’espace. 
Les probabilités de fausse alarme « et de perte du signal $ s’écrivent 
comme suit [cf. (1.11) et (1.12)]: 


a= P{yl Ho} = L [Wa (œs 2 |0)dn... dem (5.8) 
Gi 


B=P{vlH}= |. .. | Wim... zvls)dm ... dry. (5.9) 


La grandeur 


1—p-P{mI1H;} (5.10) 
est appelée probabilité de détection correcte. 

En utilisant la méthode générale exposée au $ 1.2.5, on peut 
éviter le calcul des intégrales multiples dans (5.8) et (5.9) et les 
remplacer par des intégrales simples. Les grandeurs « et B s’écrivent 
18—0682 
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alors comme suit : 


N 
a= P{inl(xi, ..., 2x)>lnclHo}=P{X tisi>KnlHol, (5.11) 


N 
B=P{lnl(x, ...,zx) <Inc|H3}=P{Y zisi <Ky|Hi]. (5.12) 
i-1 


En vertu de (5.2), les grandeurs zx; sont des variables aléatoires nor- 
males indépendantes, de moyennes nulles dans le cas de l'hypothèse 
H, et de moyennes égales à s; dans le cas de l'hypothèse H,, la va- 
riance dans tous les cas étant 


TT T 
Mite}=h | [BC-natbetuday= |et(yd=1. 
TT -T 

: 


La somme des variables aléatoires normales indépendantes Ÿ z;s, 
= 

est également une variable aléatoire normale de moyenne nulle dans 

le cas de l’hypothèse A, et de moyenne égale à 


dh = D 5, (2.15) 


dans le cas de l'hypothèse H,, la variance étant dans les deux cas 


égale à dY. 
On obtient alors à partir de (5.11) et (5.12) 


ne it PS, 
V 21% F4 N 
& y _ Grant Ke d 
D | e 24N d=F (=). 
V2; dn 
N oo 


Compte tenu de (5.7) on peut écrire comme suit l’expression des 
probabilités conditionnelles de fausse alarme et de perte du signal: 


a=1—F(F++dx), (5.14) 
p=r (Te —+ dy). (5.15) 


Pour le critère du maximum de vraisemblance (« observateur 
parfait ») la grandeur c est égale à l’unité. Il découle de (5.14) et 
(5.15) que les probabilités conditionnelles sont égales entre elles et 


égales à : 
a=p=1i—F(). (5.15) 
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I1 faut noter qu’un test analogue à (5.6) s'obtient également dans 
le cas où l’on prend pour coordonnées du processus non pas les gran- 
deurs indépendantes x, données par (5.2) mais les valeurs corrélees 
du processus à V instants, c'est-à-dire 


n=2(t), k—=1,...,N. 


En utilisant la représentation matricielle de la répartition multidi- 
mensionnelle normale [cf. (2.57), tome I] on peut écrire comme suit 
le logarithme du rapport de vraisemblance d’après l'échantillon 
corrélé x1, . .., Tv: 


Int (X)=s'MIX— SM, (5.16) 


où X ets sont les vecteurs colonnes dont les éléments sont respecti- 
vement x (t.)ets (t,) (& = 1, ..., N),et M”lest la matrice inverse 
de la matrice de corrélation de bruit. 

En introduisant la notation 


s'M"!? =U, (5.17) 


on peut écrire le logarithme du rapport de vraisemblance comme la 
différence des produits scalaires des vecteurs 


N N 
In (Ti. zx)= UX —+ Us — >, Un Th — + D UnSn. (5.18) 
k=1 k=1 


Le test d'’hypothèse s'écrit maintenant comme suit: 


N N 
| 
» ut > Inc+ DNTOT (5.19) 
k=1 k=—1 


on en conclut que le signal est présent, si pour l'échantillon donné 
l'inégalité (5.19) est vérifiée, sinon on conclut à l'absence du signal. 
Le test (5.19), tout comme le test (5.6), recommande un traite- 
ment linéaire des données échantillonnées, c’est-à-dire la sommation 
pondérée et la comparaison des résultats de la sommation avec un 
seuil établi à l'avance dépendant des caractéristiques connues a priori 
du signal et du critère de qualité. Les probabilités conditionnelles de 
fausse alarme et de perte du signal sont données par les formules 
(5.14) et (5.15), où la grandeur dy est calculée non pas à l’aide de 
(5.13) mais par la formule suivante 
N N NN 
dù= D usa = à ShSjki;, (5.20) 


€ 


=1 ) 


R=1 ) 


où k:, sont les éléments de la matrice M”1. 
Les tests (5.6) et (5.19) diffèrent en ce que, dans le premier cas, 
on utilise les coordonnées indépendantes du processus analysé, obte- 


18° 
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nues à partir d'une réalisation observée sur un intervalle donné par 
intégration pondérée, les poids étant donnés par la solution de l’équa- 
tion intégrale (5.3), et dans le second cas, les valeurs échantillon- 
nées corrélées, dont on prend la somme pondérée, les poids étant 
donnés par les composantes du produit du vecteur ligne par la ma- 
trice de corrélation de bruit inverse. Dans le premier cas le plus diffi- 
cile est de trouver la solution de l’équation intégrale (5.3) et dans le 
second, d’invertir la matrice de corrélation M. Notons que pour une 
même taille V de l'échantillon les caractéristiques pratiques de la 
détection d’après les algorithmes (5.6) et (5.19) sont en général diffé- 
rentes. 

Enfin, considérons l'algorithme optimal de détection dans le cas 
où les résultats des observations, donnés par une réalisation conti- 
nue, ne peuvent pas être échantillonnés et les résultats sont traités 
sous forme analogique et non pas sous forme numérique. 

Nous allons utiliser les résultats du $ 3.5 en posant s, (4) = s (1) 
et so () = 0. On obtient alors à partir de (3.81) le test suivant: 


le signal est présent si pour la réalisation x (t) observée sur l'inter- 
valle (— 7, Tjona 


T T 
[vOz@a>met+t (V(hs@d=Kr (5.21 
ÈT : 2 


et le signal est absent si l’on a l'inégalité inverse de (5.21). Tout 
comme dans les formules précédentes la grandeur c est donnée par 
le critère de qualité, et la fonction V (t) est la solution de l’équation 
intégrale linéaire non homogène 


T 
| BG—u)V(u)du=s(#), LIT. (5.22) 
CT 


En vertu de (3.87) et (3.88), les probabilités conditionnelles de fausse 
alarme et de perte du signal sont données par les formules (5.14) 
et (5.15) après substitution à d; de la grandeur d- calculée à l’aide 
de la formule suivante [cf. (3.86)] : 


T 
d= ([rwst dt)” | (5.23) 


On remarque facilement l'analogie des formules (5.6), (5.19), 
(5.21) et (5.13), (5.20), (5.23). 

Notons que lors de la détection d’un signal déterministe dans un 
bruit blanc normal additif, en vertu de (3.79), la fonction V (4) 
dans les formules (5.21) à (5.23) est égale à 


V()= 75 (8). (5.24) 
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Désignant par E, l'énergie du signal sur l'intervalle d'observation 
E, = [ s(t) dt, (5.25) 

on obtient à partir de (5.21) le se suivant de détection d’un signal 

dans un bruit blanc: le signal est présent si 

= [ s(t)z(t)dt>Inc+ FE | (5.26) 


Le paramètre dr donnant les probabilités conditionnelles de fausse 
alarme et de perte du signal est dans ce cas égal à [cf. (5.23) à (5.25)] 


E, 
= ; (5.27) 


c’est-à-dire au rapport de l'énergie du signal à la densité spectrale 
du bruit. 
En introduisant la puissance du signal Fa et la puissance moyen- 


ne du bruit VF dans la bande effective F du signal, on peut écrire 
la formule (5.27) comme suit : 


di=És = 2FTSs, (5.27') 


0 


2 


où s° est le rapport de la puissance du signal à la puissance moyenne 
du bruit. 

En éliminant la grandeur In c des deux relations (5.14) et (5.15) 
on obtient la relation analytique suivante entre la probabilite 
de détection correcte et la probabilité de fausse alarme [comparer 
avec (1.77')]: 

La — Tip — d, (5.28) 


où x, et z,-g sont les quantiles de la loi normale, et le paramètre d 
est donné par l’une des formules (5.13), (5.20) ou (5.23), suivant la 
méthode de traitement adoptée. 

Sur la figure 5.1 on a représenté en trait plein la famille de courbes 


1—$8—=f(x; d), (5.29) 


cette famille est appelée caractéristique de travail de la détection. 
La ligne en trait mixte fin coupe les courbes en des points corres- 
pondant au critère du maximum de vraisemblance (« observateur 
parfait »). 

I1 y a lieu de mentionner une interprétation importante de l’algo- 
rithme de détection (5.21). En utilisant les résultats du $ 4.3.1 
on trouve que le traitement linéaire optimal de la réalisation x (t) 
observée sur l'intervalle (— T7, T) dans le but de détecter un signal 
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déterministe s (t) consiste à faire passer cette réalisation à travers un 
filtre adapté dont la fonction de transition impulsionnelle est 


R* (= V(T—-7Tr, ITI<T, 
où V (t) est la solution de l’équation intégrale (5.22). Comme nous 


l'avons déjà noté au $ 4.3.4, ce filtre peut être un corrélomètre. Dans 
le cas d’une détection dans un bruit blanc additif, le filtre adapté 


Fig. 3.1. Caractéristiques de la détection 
des signaux déterministe (trait plein) et 
quasi déterministe (pointillé) 


est plus facile à réaliser, car la fonction de transition impulsionnelle 
est tout simplement l’image du signal. Le corrélomètre correspondant 
donne simplement la fonction de corrélation mutuelle temporelle de 
la réalisation observée et du signal déterministe. 

Ainsi, le dispositif optimal de détection d’un signal déterministe 
noyé dans un bruit blanc additif normal est un filtre adapté suivi 
d'un dispositif non inertiel à seuil. 

5.2.2. Signal quasi déterministe. Considérons maintenant le 
problème plus compliqué de la détection d’un signal quasi détermi- 
niste qui est un processus à bande étroite dont l'amplitude a (+) 
et la phase 4, ({) sont modulées suivant une loi donnée et dont la 
phase initiale æ, est aléatoire *), soit: 


s(t) = a (t) cos [@ot — Ÿs (t) + Pol, (5.30) 


noyé dans un bruit blanc additif normal à bande étroite. Il s'agit de 
vérifier l'hypothèse simple A, selon laquelle le processus observé 


*) C’est ce qu'on appelle une détection non cohérente. 
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est stationnaire, normal, de moyenne nulle, contre l’alternative 
composée H, que ce processus est également normal, mais de moyenne 
s (t) qui est l’une des valeurs du continuum de réalisations correspon- 
dant aux variations de la phase aléatoire p, sur l’intervalle (— x, x). 

Nous allons utiliser la représentation complexe de la réalisation 
d’un processus aléatoire à bande étroite (cf. $ 6.2.2 du premier tome 
et annexe VI) 


x (t) = Rez (6) ei, (5.31) 
où z (t) est l'enveloppe complexe du processus aléatoire à bande 
étroite, liée à ses enveloppe r (£) et phase Ÿ (t) par la relation 
z(t) = r (£) ei, (5.32) 


z (#) = À (t) + iC (6), (5.32°) 


où À (f) et C (t) sont les composantes en quadrature d'un processus 

aléatoire à bande étroite. Dans un processus normal ces composantes 

sont également normales. L’enveloppe complexe du signal quasi 
déterministe (5.30) désignée par zs (£) est égale à 

za (t) = a (t) ets, (5.33) 

s (t) = Re z,(t) eivoteivo, (5.33) 

On peut maintenant caractériser la réalisation zx (t) sur l’interval- 


le d'observation (— T, T) par un ensemble des coordonnées non 
corrélées de l'enveloppe complexe 


T 
a = Vu | z (4) gx (dt. (5.34) 
_-T 


Ici 4 et 4 (t) sont les nombres caractéristiques et les fonctions 
propres de l'équation intégrale *) 


de plus 


T 
pU)=A | B.(t—u)q(u) du, (5.35) 
-T 


B, (rt) = - mi {z(t)z(t+T)} (5.35) 


est la fonction de corrélation de l’enveloppe complexe du bruit, dont 
les parties réelle et imaginaire coïncident avec les fonctions de corré- 
lation et de corrélation mutuelle des composantes en quadrature 


Re B; (rt) = Ba (x) = Bc (1), (5.36) 
Im B; (rt) = Bac (rt) = —Bca (r). (5.36) 
*) Il est également facile de voir que la fonction B, (t, u) d’un processus 


complexe est symétrique et définie positive (cf. $ 3.3.1), les nombres caracté- 
ristiques Àx étant réels et positifs. 
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A partir de (5.34) et (5.35) on a 


_ 0, km, 
M {25m} = E has. (5.37) 
En utilisant (5.32), (5.36) et (5.36) il est facile de voir que 
M {Z2n2m} = 0 (5.37') 


pour tous # et m. 
Soit z; et y, les parties réelle et imaginaire de la coordonnée 
21, On a en vertu de (5.37), (5.37’) (cf. $ 3.4.5) 


Mi {Trÿm} = À pour k et m quelconques, (5.38) 
mu {rh} = mi {yh} = 1, (5.38') 
Mi {Zntm} = Mi {Yrÿm} = 0, km. (5.38”) 


Pour un bruit sans signal (hypothèse H,) on a m, {z (#)} = 0 
et par conséquent 


m {tr | Ho} = mu {ya | Ho} = mi {28 | Ho} = 0, (5.39) 


et pour un bruit avec signal (hypothèse H,) on a m, {z(t)} — 
—= Z, (t) e‘%, donc 


mi {zx | Hi} = sein, (5.39) 


ms {Zr | H,} = a, cos @o — bz sin Po, 


9.39” 
. M {ÿn | Hi} = ax sin Po + bx cos Po, } 
ou e 
Sn = an + ibn = V An | Zs (£) Pa (£) dé. (5.39°) 
2T 


Les composantes de l'enveloppe complexe d'un processus normal 
à bande étroite étant normales, les grandeurs z;, yi, ..., Ty, yn 
forment un ensemble de variables aléatoires indépendantes. L’expres- 
sion du logarithme du rapport de vraisemblance correspondant 
à ces 2N coordonnées du processus observé peut s’écrire comme suit 
[cf. (3.711: 


N 
1 
In l(x, Us er TN) yx|Po)= > D [(ZR + yà) — 
k=1 


— (zx — ar COS Po + D Sin Po)* — (yr — ax Sin Po— bx cos po)*] (5.40) 


ou sous forme complexe 


N 
In l(z, ..., 2 | Po) — D [ Re (zaSe= ire) — | 5, F |. (5.41) 
k=1 
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En passant à la construction du test d’'hypothèse (de la stratégie), 
prenons tout d’abord pour critère de qualité celui de Bayes. Dans 
ce cas, comme nous l'avons montré au $ 1.4.2 [cf. (1.110”)] le test 
optimal est basé sur la comparaison avec un seuil (dépendant de la 
probabilité a priori de la présence du signal et du coût d’une solution 
erronée) du rapport moyen de vraisemblance. Comme dans le problème 
envisagé nous avons supposé que le paramètre aléatoire p, soit unifor- 
mément réparti, on a à partir de (5.41) (cf. également $ 3.5.3) 


1 
A (21: ... en, = [Gr ...) 2x | Do) dPo = 


N 27 
1 2 1 ra COS(Po— Va. 
k=1 () 


r x=| > usa |; (5.42) 


Py == arc tg — "5 — . (5.42) 
Re D RSR 
k=1 


Utilisons la représentation intégrale connue d’une fonction de Bessel 
de l’argument imaginaire (cf, par exemple, tome I, $ 3.2.2), il vient 
finalement 


N 
1 a 
AG es 2x) o(rm)exp {—5 Dial). (5.43) 
k—1 
Si on se limite aux V premières coordonnées z,, ..., z+ de 


l'enveloppe complexe du processus observé, le test de Bayes permet- 
tant de juger de la présence ou de l’absence d'un signal quasi détermi- 
niste à bande étroite dans un mélange additif avec un bruit peut se 
formuler comme suit : on adopte la décision y, (le signal est présent) si 


N 
In Zo(rx)>nc++ Ds, (5.44) 
k=1 
et la décision y, (le signal est absent) si c’est l'inégalité inverse de 
(5.44) qui est vérifiée. 
L'inégalité (5.44)] [comparer avec (5.6)] peuts’écrire comme suit: 


TN > CN: (5.44) 
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où c, est donné par l’équation transcendante 


N 
In Do(ex)=Æv=mc++ S'Isf (5.45) 


k=1 


Ainsi, l'algorithme optimal (de Bayes) de détection du signal 
se réduit ici au calcul de la grandeur r, (c’est-à-dire à un traitement 
essentiellement non linéaire des coordonnées observées) et à la com- 
paraison du résultat obtenu avec un seuil c,4 donné par (5.45) et 
indépendant de l'échantillon. 

Les caractéristiques probabilistes de détection dépendent avant 
tout de la loi de répartition de la variable aléatoire r , donnée par 
(5.42). On peut facilement trouver cette loi. En effet, les variables 
aléatoires z, sont des variables aléatoires complexes, normales, indé- 
pendantes, de moyenne nulle dans le cas de l'hypothèse FH, et de 
moyenne égale à s,e'% dans le cas de l’hypothèse H,. La variance de 


tes variables pour les deux hypothèses mentionnées est, en vertu de 
(2.37), égale à 


M2 {1 |} = mi {zx PF} = mu {ax} = 2. (5.46) 


Par conséquent, la variable aléatoire r , est le module d’une variable 
aléatoire normale complexe (ou d’un vecteur aléatoire plan) de compo- 
N 


santes indépendantes, dont la variance est égale à 2 Y |s, |? et la 
R=1 


moyenne est nulle pour l'hypothèse A, et égale à >, | s, [ei pour 
k=1 


l'hypothèse H.. 

La répartition du module de ce vecteur a été étudiée en détail au 
$ 3.2.2 du premier tome. Conformément au paragraphe cité, la 
variable aléatoire r 4 est répartie suivant la loi de Rayleigh 

2F?. 


24% 


wi (r) == Re , T>0, (5.47) 


pour l'hypothèse A, et suivant la loi de Rayleigh généralisée 
r°+dN 


l: = 7e 24N Lo (r), r>0, (5.48) 


pour l'hypothèse H,. 
Dans les formules (5.47) et (5.48) le paramètre d, est donné par 
la formule [comparer avec (5.13)] 
N 
= > |sn/. (5.49) 
R=1 
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On peut maintenant écrire les expressions donnant la probabilité 
de fausse alarme ou de perte du signal. Comme la fonction In JZ, (r) 
croît d'une manière monotone, en vertu du test optimal (5.44) on a 


a=P{inlo(rx) >EÆ»x Ho) =P{rx>cxl Ho}, (5.50) 
B=P{Inl(rx) <Kx 1H} = P {rx <cn | Hi}, (0.51) 


où c, est l’abscisse du point d’intersection de la courbe y = In J, (r) 
et de la droite y = K} lcf. (5.45)]. 


En vertu de (5.50) et (5.51) et compte tenu de (5.47) et (5.48) on a 


es - r° - cY 
a= | Te “Wdr=e À, (5.52) 
Cy N 
Cy 
dà dy x? 
f=e 2 [ re * Jo(xdy) dr. (5.53) 
ù 


Cette dernière intégrale est tabulée. 

En plus de la procédure étudiée ci-dessus de détection d’après 
un échantillon discret, nous allons trouver un algorithme analogue 
dans le cas où les résultats des observations ne peuvent pas être 
échantillonnés et sont donnés par une réalisation continue x (t) 
sur l'intervalle (— T, T). 

Compte tenu de (5.35’) et après substitution de z, (f) e%o au lieu 
de s (t) on obtient l'expression suivante de la fonctionnelle du rapport 
de vraisemblance correspondant à |” PRE z (e) du processus pour 
o donné, observée sur l'intervalle (— T7 


LI: (4) | 9ol= exp {Re ve F2 dt} x 
-T 


T . 
x exp {—3Re | V (t: Po) z5 À) e &} , (5.54) 


où V (4; po) est donné par l’équation intégrale linéaire non homogè- 
ne [cf. (3.77)] 


T 
(Bu) Vu: dus (De, LIST. (5.54) 
2T 

En introduisant la fonction 


U(t) = V(t; po) e”", (5.55) 


on peut localiser le paramètre @, dans l'expression de la fonctionnelle 
du rapport de vraisemblance. En portant (5.55) dans (5.54) on obtient 
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pour U (t) l'équation intégrale 
T 
[BY U()dy=z (0, 1E1<T, (5.56) 
TT 


montrant que la fonction U (t) ne dépend pas de @,. Notons que l'é- 
quation intégrale complexe (5.56) est équivalente à un système de 
deux équations intégrales réelles pour la partie réelle u(t) et la 
partie imaginaire vw (t) de la fonction U (t): 

T 


À IBa(—y)u (y) — Bac(t—y)v(yldy=a(t) cost (#), (5.56) 
T 


T 
\ [Ba(t—y)u(y)+ Bac(t—y)u(y)ldy=a(t)sinv(t), |t]<T. 
2T 


(5.56) 


L'expression (5.54) de la fonctionnelle du rapport de vraisem- 
blance peut, compte tenu de (5.55), s’écrire comme suit: 


L{2 (4) | Pol = exp {Re e' vo (vozGa X 
-T 
T 
xpi— re U(ztal— 
X exp U 5 | (£) zs (4) : 
= exp {| | U (20) dt| cos (po — br) 
-T 


x exp {—+ fvozGa}. (5.57) 
où 
T —— 
Im | U(t)z5(t)dt 


Dr = ArC Èg —"—— ; (5.57”) 
Re | U(e)z(t)dt 


le symbole Re dans le second facteur de (5.57) a été omis car l'in- 
tégrale est réelle et positive 


TT Re 
fvorGa- 175: ba- Î Î 8:64) U (4) UT dy dt = 


-T— 


T 
T 
2 
; {| [2 pu Eat |} >0. (5.58) 
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En prenant la moyenne de la fonctionnelle (5.57) sur la phase 
aléatoire uniformément répartie (sur l'intervalle | q |<7 on 
obtient : 


d 
Afz(t)]=lo(rr)e *, (9.59) 
on a introduit ici les notations {analogues à (5.42) et (5.49)] 

T 

rr=| RADEOL (5.60) 
CT 
T 

d= [U()z (dt. (5.61) 
2T 


Le test optimal (conformément au critère bayesien de risque mini- 
mal) peut maintenant se formuler comme suit : le signal est présent 


si pour la réalisation de l’enveloppe complexe observée sur l’inter- 
valle (— T7, T)ona 


d 
In Jo(rr)>lnc+ = Kr (5.62) 
ou 
Tr 2 CT: (5.62) 


la grandeur cr étant donnée par l’équation transcendante 


In Zo(cr) = Kr. (5.63) 
La variable aléatoire rr est le module de la variable aléatoire 


T 
complexe normale | U (t) z (t) dt dont la moyenne est nulle pour 


ÈT 
l'hypothèse H, et égale à dre‘ pour l'hypothèse H,. En vertu de 
(5.58) la variance de cette variable est toujours égale à [cf. (5.35”)] 


M; {| (voa) = m, { (voa) 24%. (5.64) 
=T -T 


Ainsi, la variable aléatoire rr est répartie suivant une loi de 
Rayleigh de paramètre d? pour l’hypothèse A, et suivant la loi 
de Rayleigh généralisée de paramètres (dr, dr) pour l'hypothèse 
H;. C'est pourquoi les probabilités de fausse alarme et de perte du 
signal sont données comme dans le cas discret par les formules (5.52), 
(5.53) en substituant évidemment à dy, X x, cN les grandeurs dr, 
Rs cette dernière étant donnée par l'équation transcendante 

Lors de la détection d’un signal quasi déterministe à bande étroi- 
te dans.un bruit normal additif de densité spectrale W,;, la fonction 
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U (t) dans les formules (5.60), (5.61) est égale à 
1 
U (= (£). (5.65) 


L'algorithme optimal de détection se réduit alors au calcul de la 
grandeur *) 


= 7 | É GHOLI (5.66) 


et à sa comparaison avec le seuil c-. donné par (5.63), le paramètre 
dÿ étant égal à 


T 
n 1 a ? 


c'est-à-dire qu’il coïncide avec le rapport de l'énergie d’un signal à 
bande étroite à la densité spectrale du bruit [comparer avec (5.27)]. 

Sur la figure 5.1 on a représenté en pointillé la; caractéris- 
tique de détection d’un signal quasi déterministe à bande 
étroite. En la comparant avec les courbes données en trait 
plein pour les mêmes valeurs du paramètre d- on peut voir combien 
elles sont pires par rapport au cas d’un signal déterministe. 

Dans le cas de la détection d’un signal harmonique s ({) — 
—= À, CoS (wot + po) de phase aléatoire, on obtient à partir de (5.66) 


1 Rond 


CL 


T T 
Tr = [{ [A@&) + ({ ce dt)" ] | 


(5.67) 


Comme les composantes en quadrature À (t) et C (t) de la réali- 
sation observée zx (t) varient lentement par rapport à cos wwt**), on 


*) Un dispositif optimal de détection peut calculer au lieu de r- une fonc- 
tion monotone quelconque f (rr) et la comparer avec / (cr) sans chan- 
ger les valeurs des probabilités d'erreurs. Ainsi, la caractéristique de 
détection est donnée non pas par le rapport signal/bruit à la sortie du 
dispositif, rapport dépendant de la forme de la fonction f (rr), mais par le 
rapport de l’énergie du signal à la densité spectrale du bruit blanc (ou par la 
grandeur analogue (5.61) quand le spectre du bruit n'est pas uniforme). 

**) Par exemple, on a 


T T T 
| x (t) cos wot dt = | A (t) cos? wgt dt + À | C (t) sin 209 t dt = 
-T T -T 


+ 


T 


T 
A(t) dt++ | [A (e) cos 2 + C (1) sin 2oçt] & + | 46 dt. 
T 


T 
-T 
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peut écrire (5.67) comme suit 


T T 1 
_— 24) 2 . 2 2 Cd À 
RS [ { EC cost dt) + | | = an wot d | | . (9.67) 
Le para mètre dr est ici égal à 
.  2TAË 
di = No ® 


Notons qu’en vertu de (3.102) le domaine critique, pour un 
donné, où l'hypothèse FH, est rejetée (c'est-à-dire “u’on adopte la 
décision que le signal est présent) se détermine d’après le critère 
de Neumann-Pearson par l'inégalité suivante: 


T 
Re | V (£; Go) 2 () dt = rr cos (fo— Ÿr) > Æ (Fo), (2.68) 
ÈT 


où À (%o) est donné par une certaine probabilité « de fausse alarme. 
La relation (5.68) montre que la stratégie uniformément la plus 
puissante dans le cas envisagé n'existe pas. On peut modifier ce crite- 
re en utilisant le test (5.68) centré sur @o, c’est-à-dire le test (5.62) 
où cr est donné par la formule [cf. (5.52)] 


cr=dr)/ 2In. (5.69) 


L’algorithme optimal de détection (5.62”) peut être interprété 
assez simplement en passant des grandeurs complexes aux grandeurs 
réelles. On peut alors écrire (5.62) comme suit 


| (Re rr)° + (Imrr)} > ©, (5.70) 
ou - 
Rerr= | {u(1) A(t)+v(4) C (1e; (5.71) 
; 
Im rr = | Lu (#) A (0 — u (#) C6] dt. (5.71) 
T 


Soient € (x) et k$ (rt) les fonctions de transition impulsionnelles des 
filtres adaptés aux composantes en quadrature a (t)cos Ÿ, (é) et 
a (t)sinw, (t) du signal. Ces fonctions sont données par les solutions 
des systèmes d'équations intégrales linéaires (5.56) et (5.506”): 


R (T)—0(T—7+), ITI<T. (5.72°) 


Le traitement non linéaire optimal de la réalisation x (t) observée sur 
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l'intervalle (— 7, T) pour la détection d’un signal quasi détermi- 
niste à bande étroite dans un bruit blanc additif consiste à (fig. 5.2) : 
1) faire passer les composantes en quadrature du processus observé à 


Fig. 5.2. Schéma d'un dispositif optimal de détection 
d’un signal quasi déterministe a bande étroite 


travers deux groupes de filtres adaptés aux composantes en quadra- 
ture du signal; 2) former la somme et la différence des valeurs du 
signal de sortie dans chaque groupe de filtres ; 3) effectuer une détec- 
tion quadratique à deux alternances de la somme et de la différence 
des valeurs du signal; 4) prendre la somme des grandeurs détectées. 

Si le signal est non modulé en phase, on a hf (tr) = 0 et dans 
chacun des groupes mentionnés de filtres il ne reste plus qu'un seul 
filtre adapté à l'enveloppe du signal a (t). 

Ainsi, le dispositif optimal de détection d’un signal quasi déter- 
ministe à bande étroite noyé dans un bruit additif normal se compose 
d’un système de filtres, d’additionneurs et de détecteurs quadrati- 
ques suivis d’un élément non inertiel à seuil. En pratique on uti- 
lise un dispositif optimal équivalent plus simple se composant 
d'un filtre adapté au signal et d’un détecteur linéaire séparant 
l'enveloppe. 

9.2.3. Signal stochastique. Supposons que le signal utile, tout 
comme le bruit additif indépendant du signal, soient des processus 
aléatoires normaux stationnaires de moyenne nulle, ne différant 
que par leurs spectres (c’est-à-dire par leurs fonctions de corréla- 
tion). Soient B, (r) et B} (x) les fonctions de corrélation données du 
signal et du bruit. Pour détecter ce signal stochastique il y a lieu de 
vérifier l’hypothèse 7/7, selon laquelle la fonction de corrélation du 
processus aléatoire normal stationnaire est égale à B}, (t) contre 
l'alternative À, que la fonction de corrélation du processus est 
Bs (7) + Bi (7). 

Nous allons prendre, conformément au $ 3.5.4, pour coordonnées 
observées les coordonnées non corrélées 


= VA | x (£) Pa () dé, (5.73) 


-T 
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où x (t)est la réalisation du processus sur l'intervalle (— T, T) et 
Ar et pr (t) les nombres caractéristiques et les fonctions propres (non 
normées) de l'équation intégrale linéaire [cf. (3.120)] 

T 


T 
Î Be(— y) p (y) dy = A —1) [ 860) çà, LIST, (5.74) 


-T 


la normalisation des fonctions propres étant effectuée conformément 
à l'égalité 


TT 
1, k=m, 
B; (t— L) Em (y) dt dy = 5.74" 
in LT b (£— y) Pn (£) Pm (y) di dy { 0 kæm. 4°) 
En vertu de (3.122) le logarithme du rapport de vraisemblance 
pour l'échantillon z,, ..., zn de taille finie N est 
N 


Inlfr, 2er D +3 An (5.75) 


Le test se formule maintenant comme suit : le signal est présent si 


N 


Àk — 1 _ 
D = xè >21nc+ D In Au, (5.76) 
k=1 k=1 


et est absent si c’est l'inégalité inverse de (5.76) qui est vérifiée. 
Ainsi, l'algorithme de détection d'un signal se réduit au calcul 
de la somme pondérée des carrés des données échantillonnées (coor- 


données non corrélées) et à sa comparaison avec un seuil fixé à 
l'avance 


N 
Ky=2Inc+ dns. (5.76') 
k=1 


Cet algorithme est optimal vis-à-vis de tous les critères (sauf les critè- 
res d’échantillonnage progressif) mentionnés dans le premier chapi- 
tre. Le choix du critère n’influe que sur la valeur du seuil (constan- 
te c). 
Les probabilités conditionnelles de fausse alarme et de perte 
d’un signal sont données par les répartitions (3.126), (3.126) : 
1 


Lf Ÿ CI (1 -)] x 


In © =00 


x exp {+ In ll (1 +—)} ex dudr, (5.77) 
19—0682 : 
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In C Ai 


RULUEUIRE 


N 
x exp {5m Il (1+2)} e*dvdz, (5.78) 
k=1 


1 
SE Âx—1° 
L’algorithme de détection d’un signal stochastique peut avoir 
une interprétation analogique dans le cas d’un bruit blanc additif, 
c'est-à-dire pour B, (t) = N,Ô (rt). Dans ce cas À, sont 
1 
L— 1 ar 1 0 “1 
M + Nour (5.79) 
où u, sont les nombres caractéristiques de l'équation intégrale li- 
néaire homogène 


T 
v(=u | By) dv, (5.80) 
-T 


les fonctions propres 4 (t) de l'équation initiale (5.74) étant liées 
aux fonctions propres Ÿ, (t) de l’équation (5.80) par la relation sui- 


vante PE 
pa () = V' Nos (6). (5.80) 


La présence d'un bruit blanc additif exclut la singularité, par 
conséquent, les sommes dans l'expression (5.75) du rapport de vrai- 
semblance ont des limites finies pour V —+ (cf. $ 3.5.4). Considé- 
rons la somme dans le premier membre de (5.76) pour N —+ co. En 
substituant à z, son expression (5.73) et compte tenu de (5.74), 
(5.80), (5.80°) on obtient 


oo TT co 
ou at eo 1 Va (u) Pr (v) e 
D = | | z(u)z (0) [ D OP Ju dv. (5.81) 
k—1 -T -T R=1 
La fonction de deux variables 
hu, v)= S enr (5.82) 
h— 


satisfait à l'équation intégrale (cf. $ 3.5.6) 


T 
| B,(t—u)h{u, v)du+Nih(t, v)= B;(t—v), (5.83) 
_ MIT, Iol<T. 
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En effet, en portant dans le premier membre de (5.83) l'expression 
de h (u, v) tirée de (5.82), en changeant l'ordre de la sommation et 
de l'intégration et compte tenu de (5.80) on obtient 
T 00 
. Da (4) Ba v) 

| Ba (t—u) h(u, v)du= 3, OR 
eT k=1 L 

ANA ZAIOLIORES"T Va (£) dr (v) 

= 2 Et No À 1+ Nour 


Tenant compte du fait que la première somme est le développement 
orthogonal de la fonction de corrélation du signal [cf. (3.24)] 


R=1 R=1 


© 


B, (—v)= Ÿ ŸR (4) Pa (v) | 


R 
Rh=1 d 


et que la seconde somme en vertu de (5.82) est égale à Noh (t, v) la 
véridicité de notre affirmation devient évidente. 
En utilisant (5.81) et (5.82) on peut formuler le test (5.76) comme 


suit : le signal est présent dans un bruit blanc additif, si pour la 
réalisation observée x (t) on a 


TT 
1 
_ Î je v)x(u)z(v)dudv>K, (5.84) 
où 
K=2Inc+ >rsinÀ;, (5.84") 


1={ 


h (u, v) étant la solution de l’équation intégrale (5.83). Dans (5.84') 
la somme infinie est convergente et peut s'exprimer en fonction 
de la résolvante du noyau 
B; (t— u) de l'équation (5.83) 
[cf. (3.136)]. 

Ainsi, le système optimal 
de détection d'un signal sto- 
chastique (normal) noyé dans 
un bruit blanc normal additif 
est un filtre non linéaire du se- 
cond degré (voir $ 4.4.2) suivi Fig. 5.3. Schéma d'unidispositif optimal 
d'un élément à seuil non iner- de détection d'un signal stochastique 
tiel (fig. 5.3) *). 

Les probabilités « de fausse alarme et B de perte d’un signal 


sont, dans le cas considéré, données par les formules (3.141) et 
(3.141”). 


*) Comparer également avec le schéma de la figure 3.1. 
19° 
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Considérons en conclusion le cas limite où le signal est égale- 
ment une sorte de « bruit blanc », c'est-à-dire un processus aléatoire 
à spectre énergétique uniforme pour toutes les fréquences dont 
l'intensité V, n'est pas égale à l’intensité N, du bruit blanc gênant. 
On a alors B, (t) = N.ô (x) et à partir de (5.80) et (5.74) on obtient 


1 N 
Be: M = 1+ 7. (5.85) 
Le test d'hypothèse d’après W échantillons non corrélés se for- 


mule dans ce cas limite comme suit [cf. (5.76)]: 
le signal est présent si 


N 
Ns/N N 
Ti D>2lnc+Nin(i+) (6.86 
ou 
N 
> xÀ >, (2.87) 
R=—1 
avec N 
| N Z- 
v=2(1+%)m[c(1+%)"]. (5.88) 


Si V est suffisamment grand, la somme dans le premier membre de 
l'inégalité (5.87) peut être remplacée par une intégrale *) 


N T 
Da _ | x? (t) dt. (5.89) 


R=1 -T 


En vertu de (5.87) et (5.89) l'algorithme de détection se réduit 
a la comparaison du rapport de l'énergie du processus observé x (+) 
à la densité spectrale du bruit, avec une certaine constante y* déter- 


minée en vertu de (5.88) par la grandeur et la constante c (c'est-à- 


dire par le critère choisi). Le dispositif de réception effectuant cette 
opération peut être appelé récepteur énergétique. 
Comme zx, sont des variables aléatoires normales indépendantes 
de moyenne nulle, les variables aléatoires 
N e N 
es :"o 2 
2% Frm 2% 
k=1 RkR=1 


— 
— 


(respectivement en présence et en l'absence de signal) sont réparties 
suivant la loi du #* (cf. problème 3.15, tome I). En utilisant la 
formule (21) du problème 3.15 on trouve les probabilités condition- 


*) Notons que la grandeur y pour W + oo n’est pas limitée. 
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nelles de fausse alarme et de perte du signal, soit 
N v° 

r(S +) 

7 (5.90) 


(5.91) 


où l (x, y) est une fonction gamma incomplète [cf. (1.41), tome I]. 

Si la taille de l'échantillon est importante (NW © 1), en utilisant 
l'approximation asymptotique de la fonction gamma incomplète 
[cf. (1.43), tome I] on obtient à partir de (5.90) et (5.91) 


a—1—F{(y-VN)V3, (5.92) 
B — F5 V7) VE]. (5.93) 


Les formules (5.92) et (5.93) relient entre eux (pour c donné) le nombre 
d'observations N, le rapport des puissances du signal W, et du bruit 
N, par unité de bande de fréquences et les probabilités &« de fausse 
alarme et B de perte du signal. 
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9.3.1. Méthode d'amplitude. Nous allons passer à l'étude des 
algorithmes de détection dans le cas ou avant tout traitement le 
processus à bande étroite reçu est démodulé, c'est-à-dire que soit son 
amplitude, soit sa phase sont extraites du signal modulé. Lors de 
la réception les processus à haute fréquence sont amplifiés (par exem- 
ple, par un amplificateur à fréquence intermédiaire), c’est pourquoi 
dans ce paragraphe on suppose que la largeur de la bande passante À 
de l’amplificateur prédétecteur soit bien supérieure à la largeur du 
spectre du signal reçu, à la différence du paragraphe précédent, où 
le système linéaire était toujours adapté au signal. 

Considérons tout d’abord le test optimal relatif à la présence ou 
à l'absence de signal, basé sur la réalisation de l'enveloppe du proces- 
sus observé qui est soit un bruit normal stationnaire à bande étroite 
de moyenne nulle (hypothèse FH), soit la somme de ce bruit et d’un 
signal déterministe à bande étroite s (£) — a (t) cos [wot — 1, (t)] 
(hypothèse ÆJ,). On peut trouver les caractéristiques probabilistes 
de ces processus dans le chapitre huit du premier tome. En utili- 
sant la terminologie employée dans le chapitre mentionné, on peut 
formuler comme suit le problème envisagé: il y a lieu de vérifier 
l'hypothèse simple Æ, que l’enveloppe observée est un processus de 
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Rayleigh, contre l'alternative simple A, que l'enveloppe est un pro- 
cessus de Rayleigh généralisé *). 
Selon la méthode générale, il y aurait lieu d'utiliser pour coor- 
données observées de l'enveloppe les grandeurs non corrélées 
T 


= ÿ x | r (£) Pr (£) dt, (5.94) 
2T 


où r (t) est la réalisation de l'enveloppe sur l’intervalle d’observa- 
tion (— T, T); A4 et 4 (t) sont les nombres caractéristiques et les 
fonctions propres de l'équation intégrale 

T 


PO=A | BeG—Dpd HT, (5.94") 


-T 


BE (rt) étant la fonction de corrélation donnée de l’enveloppe du 
bruit. 

Pour trouver la densité de probabilité de la variable aléatoire 
re, il faut, en vertu de (5.94), résoudre l’un des problèmes les plus 
compliqués de la théorie des processus aléatoires (cf. tome I, chapi- 
tre 9) de la détermination de la loi de répartition du processus à la 
sortie d’un système linéaire, lorsque celle d’entrée n’est pas normale 
(il s'agit ici de la loi de Rayleigh). Les variables aléatoires r,, k — 
= 1,2, ..., ne sont réparties ni suivant la loi normale, ni suivant 
la loi de Rayleigh, de sorte que le fait qu’elles ne soient pas corrélées 
ne signifie pas qu'elles soient indépendantes. Le calcul du rapport de 
vraisemblance pour l'échantillon (r,, ..., r,x) est un problème 
fort difficile à résoudre. C'est pourquoi nous allons maintenant 
nous écarter quelque peu du problème exact et faire quelques simpli- 
fications **). 

Supposant que le spectre énergétique du bruit soit uniforme dans 
la bande À, écrivons les coordonnées non corrélées de l'enveloppe 
conformément à (3.41), soit: 


nur 
A sin (At — 7x) 
n=y + JO ne 4 (5.95) 
N, étant la densité spectrale du bruit. 


*) Notons que l'enveloppe de la somme d'un processus quasi déter- 
ministe (de phase aléatoire) et d'un bruit normal est également répartie suivant 
une loi de Rayleigh généralisée (cf. 8 8.2.1, tome I). C'est pourquoi les conclu- 
sions faites dans ce paragraphe concernent également la détection d’un signal 
quasi deterministe [cf. (5.30)]. 

*+) Seule cette méthode simpliste (sans fondements rigoureux) était utilisée 
dans les premiers travaux de la théorie de la détection des signaux (voir, par 
exemple, [18]). 
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Supposons de plus que le temps d'observation T >. Comme 


; A sin (At—7k) ak 
pour A — co la fonction A MN — Ô (: — T.) , compte 


tenu de (5.95) et vu que AT S 1,ona 


a nk 
n=V r (+) (5.96) 
ou 
rn= 2, (5.96) 
6? — dre étant la variance du bruit ; Æ£, — r(T) les valeurs échan- 


tillonnées de l’enveloppe pour t — É. 
Ainsi, l’échantillonnage de l'enveloppe est fait à des intervalles 
de temps . , les valeurs échantillonnées pouvant approximativement 


être supposées non corrélées. 

Comme dans le cas d’un processus aléatoire normal les valeurs 
non corrélées de l'enveloppe sont statistiquement indépendantes 
(cf. tome I, $ 8.2), les coordonnées non corrélées r, sont des variables 
aléatoires indépendantes. 

En se limitant aux N premières coordonnées, écrivons les fonctions 


de vraisemblance de l'échantillon (r;,, . .., r …) pour les deux hypo: 
thèses mentionnées ci-dessus [cf. (8.17) et (8.18), tome Il: 
Wilru...rwlHo)= []rre ?, rk>0, (5.97) 
h-1 
N TR +ah 
MW (2 rs |H)= [fre 2 Jornax), rr>0, (5.97') 
où 
Tk 
: (+) 
D —— (5.98) 
est le rapport de l'amplitude du signal, à l'instant = , à Ja 


moyenne quadratique du bruit. 
Trouvons à partir de (5.97) et (5.97’) le logarithme du rapport 
de vraisemblance, soit : 


N N 

1 e 

InZ(r1, . ry)= ÿ In To (rrar) — > D' ai. (5.99) 
Rh=1 R=1 


Maintenant nous pouvons facilement formuler le test d’hypothèse 
optimal: si pour l’échantillon observé r;, . .., rA des coordonnées 
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de l'enveloppe 2 a 


S In Zo(rrar) > In LS ns ai —=K%, (5.100) 
k=1 | k=i 
on adopte la décision y, que le signal est présent, et si c’est l’inéga- 
lité inverse de (5.100) qui est vérifiée, on adopte la décision ÿ 
qu'il n’y a pas de signal. 

Dans la formule (5.100) la constante c est déterminée par le cri- 
tère de qualité adopté (de Bayes, de Neumann-Pearson, du minimax) 
conformément à la table 1 page 35. 

On ne peut dans ce cas calculer sous une forme générale les pro- 
babilités conditionnelles des fausses alarmes et des pertes du si- 
gnal. Cependant on peut étudier l'expression approchée de ces pro- 
babilités pour un signal faible lorsque max an & 1. 


En développant In 7, (r,a:.) en série suivant les puissances de 
(r,a,) et en nous limitant au premier terme, c'est-à-dire en négli- 
geant les termes contenant les puissances supérieures ou égales à la 
quatrième *) nous avons: 


In 7, (rrar) = _ (rran)*. 


On obtient alors à partir de (5.100) le test simplifié : le signal est pré- 
sent si 


Ÿ airË>4Ky. (5.101) 


Ainsi, l'algorithme de détection se réduit dans le cas présent au 
calcul de la somme pondérée des carrés des valeurs échantillonnées 
de l’enveloppe et à sa comparaison avec un seuil dépendant seulement 
du critère choisi et des caractéristiques a priori du signal et du bruit. 

En utilisant (3.6) et (3.7) et leur généralisation éventuelle aux 
processus aléatoires (cf. $ 3.2.3), on peut approximativement, pour 
TA S$ 1, remplacer la somme (5.101) par une intégrale 

N 


N 
. k Ea - 
D = ET »' a? (+) = FA (5.102) 
=1 k=1 
où 
T 
E. = | a (t) dt (5.103) 
2T 
et 


N 
+3 nd= Sr (S) a° (SE) = Br j r2 (t) a? (#) dt. (5.104) 


k=1 k= _ 


*) Le développement en série et l'approximation faite doivent recevoir 
une interprétation probabiliste. 
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En portant (5.102) et (5.104) dans-(5.101) on obtient pour le test en 
question l'expression analytique suivante: 


T 
nn 2 2 Es En. 
ZN 0902 Le (t)a*(t) dt>1n c+ NS (5.105) 


qui montre que les éléments essentiels d’un dispositif optimal de 
réception pour la méthode d'amplitude de détection d’un signal 
faible sont un détecteur quadratique et un corrélomètre calculant la 
fonction de corrélation mutuelle du signal à la sortie du détecteur 
r® (t) et du carré de l'enveloppe a° (t) du signal déterministe. 

Pour trouver les probabilités de fausse alarme et de perte du si- 
gnal en se basant sur (5.101) ou (5.105), on a dans le cas général à 
résoudre un problème assez compliqué de la répartition de la somme 
pondérée des carrés des variables aléatoires indépendantes, réparties 
suivant la loi de Rayleigh généralisée dans le premier cas, et de la 
répartition de l'intégrale du carré du processus de Rayleigh généra- 
lisé, dans le second. 

Si l'échantillon est de taille assez grande (N © 1), la répartition 
de la somme de variables aléatoires indépendantes dans le premier 
membre de (5.100) est, en vertu du théorème limite central et pour 
les restrictions faites concernant a, (cf. $ 3.4, tome ÎÏ), normale, de 
moyenne et de variance égales respectivement à *) (pour max ax 1) 


N N : 
my {2 In Jo (aari)| Ho} Æ 22 ai(1i—+), (5406) 


N N 
M2 { D In Lo(ars)| Ho} 4 Ÿ ai, (5.106) 
k=1 k=1 


en l'absence de signal et 


N N u 
mi: {5 In Lo (axrr) | Hi} S 2 D ai (1 ++) | (5.106”} 
k=1 ki 


N N 
M3 {Ÿ In Lo (aun)| Hi} #4 Ÿ ai, (5-106") 
k=1 k=i 
en présence du signal. 
En vertu de (5.106)-(5.106”), pour max a; <,1 et N © 1 le 
k 


logarithme du rapport de vraisemblance (5.99) est réparti (approxi- 


._*) Pour le calcul des moments des carrés de variables aléatoires réparties. 
cran : loi de Rayleigh et la loi de Rayleigh généralisée voir tome I, chapi- 
tres 2 et 5. 
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mativement) suivant une loi normale de parametres 


: 

ma nl(rs ...srn)| Ho)= —+ 9 ai, (5.107) 
oo. 

mfln(r, .…rx)lH}=+ S ai, (5.107") 
Rk—=1 


Maf@inl(r, ...,rn)| Ho} = 


| 
M4 z 
a 


— M;,{lnl(r:1, ...,rx)| Hi} = (5.107”) 
k=1 
En introduisant la notation à 
= S ai, (5.108) 


R=1 
-on peut écrire comme suit les probabilités de fausse alarme et de 
perte du signal: 


a=1—F | ne +sv) (5.109) 
B=F( sy). (5.109') 


Notons que pour la méthode absolument optimale de détection, 
les probabilités de fausse alarme et de perte du signal [cf. (5.14) et 
(5.15)] dépendent du paramètre d, égal à la racine carrée de la som- 
me des carrés des valeurs normées du signal, alors que les probabili- 
tés données par les formules (5.109) et (5.109”) dépendent du para- 
mètre s, égal à la racine carrée de la somme des quatrièmes puissan- 
-ces des valeurs normées de l'enveloppe du signal. Ceci veut dire que, 
pour un signal faible, lors d’un traitement optimal après démodula- 
tion il y a altération de la caractéristique de la détection par rapport 
au traitement optimal avant démodulation, en effet, dans le premier 
-cas c’est le carré du rapport signal/bruit qui entre en jeu, alors que 
dans le second c'est ce rapport lui-même. 

On peut étudier d'une manière analogue les propriétés asymptoti- 
ques de la caractéristique de la détection à partir de l’algorithme 
(5.105) de traitement de la réalisation pour 7? —+ et compte tenu 
du fait que la répartition de l'intégrale dans (5.105) tend vers la loi 
normale (cf. $ 9.4.2, tome Î). 

Notons que pour un signal intense, c'est-à-dire pour min ar D 1, 


‘en utilisant le développement asymptotique de la fonction de Bessel 
(cf., par exemple, $ 3.2.2, tome ÎI) on peut écrire comme suit l’iné- 
galité (5.100) . 


S aurn> Kx (5.110) 


h--1 
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et pour TA © 1 Î[cf. (5.105)] on à approximativement 
T 
1 E, 
No | r (t)a(t) d'> mc+sr. (5.111) 
=T 


Dans ce cas le dispositif de réception optimal se compose d’un détec- 
teur linéaire et d’un corrélomètre donnant la fonction de corrélation 
mutuelle entre le signal à la sortie du détecteur et l'enveloppe du 
signal déterministe. 

Comme précédemment, pour V S 1, on trouve que le logarithme 
du rapport de vraisemblance pour min ar > 1 suit une loi normale 


de paramètres 


N 
ma {ln L(rs, rx) | Ho} = — + D ai, (5.112) 
-241 
1 1 
m. {InZ(r;, ., rx)| Hi} = Ÿ ai, (5.112") 
h—1 
N 
Ma{inl(r, ...,rx)| Ho} 2 N af, (5.112”) 
Rk=1 
N 
Mafnl(rs ...,rx)| Hi} = D ai. (5.112) 
R=1 


Les probabilités de fausse alarme et de perte du signal sont respecti- 
vement 


Eee DES Inc dx - . 
a—=1—F Eee Een |: (5.113) 
De Inc dn 
p= Fe), (5.114) 
où . 
dY 2 ai. (5.115) 


Notons que dans le cas d’un signal intense (dy > 1) la probabilité 
de perte du signal donnée par (5.114) est la même que dans le cas du 
traitement avant démodulation [cf. (5.15)]. Quant à la probabilité 
de fausse alarme, le second terme (le terme essentiel) dans l’argument 
de l'intégrale de Laplace est V 2 fois moindre que le terme correspon- 
dant dans la formule (5.14). 

5.3.2. Méthode de phase. Cherchons maintenant le test optimal 
permettant de juger de la présence ou l'absence d’un signal déter- 
ministe noyé dans un bruit normal additif à bande étroite d'après la 
réalisation de la phase Ô (t) du processus observé. Les caractéristi- 
ques probabilistes de la phase correspondant aux dews.. hypothèses 
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H, (phase du bruit) et 7, (phase du mélange additif du signal et du 
bruit) sont données dans le chapitre huit du premier tome. 
En répétant des raisonnements analogues à ceux ayant conduit 
à la formule (5.96) introduisons les coordonnées non corrélées de la 
phase 
xtk 
01 = 0 (=). (5.116) 
Les valeurs de la phase étant non corrélées et appartenant à un pro- 
cessus normal, les coordonnées Ÿ, sont indépendantes (cf. $ 8.4.2, 
tome J). En se limitant aux NW premières coordonnées on peut écrire 
comme suit les fonctions de vraisemblance de l’échantillon Ÿ,, . .. 
, Ÿ y pour les deux hypothèses mentionnées {cf. (8.59), tome Il: 


11N : 
UE. à da, (5.117) 


ak 
2 


wn (Üys -.. dx 49 Î] {He + 


+7 cos ci F [ax cos (dx —1f1)] X 


ai 
ne si us 
? 


X © [Di —Yi|<a, DE Re | (5.118) 


où a, est donné par la formule (5.98) et 
ep (5). (5.149) 


À partir de (5.117) et (5.118) on peut obtenir le logarithme du 
rapport de vraisemblance, soit : 


C3 


In (01, ... = S In {e 2 LV2r An COS (Ür — Ÿr) X 


a? 
sin 0, -ÿ) 


X Faxcos(8x—1w)le 2 h (5.120) 
| di — Vi [LT, L— 1, nt N. 
Le test d'hypothèse peut alors se formuler comme suit : le signal 
est présent si 
D 
à In {e * + V 2n ah COS (Ür — Ya) X 


2 sin —+Ÿ,) 
X Flaxcos(8r—%x)le ©? #R)>Ine, (5.121) 


[di pil<n, i=1,...,N. 
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Dans le cas d'un signal faible (max ay, << 1) la relation (5.121) se 
k 


simplifie considérablement. En utilisant la formule (8.61) du pre- 
mier tome on trouve en première approximation 
= SN N 
+ : “ST é r È 
V + à &y COS (0 r —Vr) > In m2) ai = K%, (5.122) 
h—1 Rh=1 


[di —v|<r, RS PT 


Comme dans les cas précédents, pour AT Ÿ { la somme dans le pre- 
mier membre de (5.122) peut approximativement être remplacée 
par une intégrale 


T - —. 
À À a(cos(8()—W()14> y 2inc+}/ Ha. (612 


-T 


Ainsi, l'opération principale de l'algorithme optimal de détec- 
tion d’un signal déterministe faible par la méthode de phase est le 
calcul de la fonction de corrélation mutuelle entre le cosinus de la 
différence de phase du signal reçu et du signal déterministe et l’en- 
veloppe du signal déterministe *). 

Tout comme dans la méthode d'amplitude, le calcul des probabi- 
lités de fausse alarme et de perte du signal d’après l'algorithme de 
traitement (5.122) se heurte à des difficultés du calcul de la densité 
de probabilité de la somme des variables aléatoires du premier mem- 
bre de (5.122). Cependant, si l'échantillon est de taille importante 
(N Ÿ 1) on peut supposer que cette somme est asymptotiquement 
normale et se limiter au calcul de la moyenne et de la variance pour 
les deux hypothèses. Pour max Gk & 1 (cf. $ 8.5.1, tome I) on a 


— N 
ms {y 2 ax cos (9x — x) | Ho} = 0, (5.123) 
N 
mu 1Æ > an cos(8x—Wu)| Hi} = Di ai, (5.423) 
k=1 
M, (35 a cos (da — a) | Ho} — 
SE : À N 
M, {y À D an cos (9x — a) | Hi} = VS ai. (51237) 
Rk=1 k=1 


*) Comme il a été montré dans [23], le dispositif optimal de détection 
par la méthode de phase est un limiteur parfait suivi d'un filtre adapté. 
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En utilisant l'expression (5.115), on trouve pour les probabilités de 
fausse alarme et de perte du signal: 


21nc V4 
arf + dx), (5.124) 
… 21nc Va ’ 


A la différence de la méthode optimale d'amplitude {cf. (5.109} 
et (5.109”)], dans la méthode optimale de phase, tout comme dans la 
méthode optimale avant démodulation, les probabilités de fausse 
alarme et de perte du signal dépendent du paramètre dy, c’est-à-dire 
que la caractéristique de détection d’un signal faible se trouve 
être meilleure dans la méthode de phase que dans la méthode d’am- 
plitude *). On peut facilement trouver l'analogie existant entre 
(5.124), (5.124") et (5.14), (5.15), les premières formules pouvant être 


obtenues à partir des secondes en substituant = d, (c’est-à-dire Æ 
æ 0,9 d\) à dx. 
A l’aide de la formule asymptotique (8.63) du premier tome, dans 
le cas d’un signal intense (min a; © 1), le test d’hypothèse ([cf. 
kR 


(5.121)] peut se formuler comme suit : le signal est présent si 


N N EF 
D ai (Op) D In (VA ac) (5.125) 
R=1 k=1 
ou approximativement, pour AT S 1, si 
T T 
1 : — 
A | SObE-vora<E( my Jane. 
T T 5 
(5.125”}) 


Ainsi, le dispositif optimal de réception, pour la méthode de dé- 
tection de phase d’un signal déterministe intense discriminant se 
compose essentiellement d’un détecteur de phase, séparant le carré 
de la différence de phase des signaux reçu et déterministe, et d’un 
corrélomètre donnant la fonction de corrélation mutuelle du signal 
à la sortie du détecteur de phase et le carré de l'enveloppe du signal. 

Considérons également la méthode optimale de détection de phase 
appliquée à un signal quasi déterministe [cf. (5.30)] de phase initiale 
aléatoire. Dans ce cas, pour un signal faible (max a; < 1), le rapport 

k 


de vraisemblance pour une valeur donnée de la phase , est 


*) On pouvait s’y attendre car la densité de probabilité de la phase (5.118) 
est plus riche en information que la densité de probabilité de 1 enveloppe (5.97'). 
Dans le premier cas les paramètres de la répartition recéèlent l'information 
sur les valeurs de l’enveloppe et de la phase du signal, tandis que dans le second. 
seulement sur les valeurs de l'enveloppe. 
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[cf. (5.122)] 
(81, ..., On | Po) = 


N 
— EXP 1Æ D) a; COS (Ÿ x — Ya + Po) — = 2 aÿ } (5.126) 


ou 


LB, .., On | Po) = exp {y TN cos (go — x) } *< 
N 


xexp{—+ Dai}, (5.126) 
l 


N 
r; =| 2 ane" Ÿn) |: (5.127) 


N 
40, — 
Im Ÿ axe" k Ÿh) 


R=1 


D, = arc tg (5.127) 


N 6 
(0. — 
Re >, ane A a) 


Prenons la moyenne du rapport de vraisemblance par rapport à la 
phase aléatoire @, uniformément répartie, il vient: 


N 
A (01, -.., y) — exp D - ai X 
k=1 


Eloi 1Æ V Sr cos (Po— Dx) } dPo= 
U 


pe (y £rx) exp (+3 ai } + (5.128) 


De la formule (5.128) découle le test de Bayes suivant: le signal 
quasi déterministe est présent dans le processus observé si 


_ N 
in (y + w)>hme+—=Y ai = K y (5.128) 
Rk—1 


ou bien, si 
Ty ZCN 


cv étant donnée par l'équation transcendante 


In Ve cw) =: (5.128) 
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On peut calculer sous forme explicite la densité de probabilité 
de la statistique r\, [cf. (5.127)] pour l'hypothèse H,, c'est-à-dire en 
l'absence de signal. Dans ce cas, en utilisant avec quelques modifi- 
cations la méthode examinée dans [5], chapitre 4, $ 4, relativement 
au problème du « voyageur errant », on obtient l'expression suivante 
pour la densité de probabilité unidimensionnelle de rx, lorsque Ÿx 
sont des variables aléatoires indépendantes uniformément réparties 
sur l'intervalle (0, 2x): 


oo N 
wi (r)=r | SJ, (rs) II Jo (ass) ds. 
Û h-=1 


I1 en découle, compte tenu de (5.128’), que la probabilité de fausse 
alarme est 


00 co N 
a — [ ui(r)dr=1—cx [ Ji(cxs) II Jo(ans)dse (5.129) 


L e 
Cne 
à 


u h—1 


Pour un signal sinusoïdal d'amplitude constante on a 
a=1—k | Ji (x) JS (x) dx, (5.129) 
0 


où À — _. . Pour le critère de Neumann-Pearson le seuil X est donné 
par (5.129”) en fonction de la probabilité « de fausse alarme et ne 
dépend pas de la puissance du signal. 

Pour un échantillon de taille importante (W Ÿ 1) la loi de ré- 
partition de la variable aléatoire r,, tend asymptotiquement vers la 
loi de Rayleigh pour l'hypothèse FH, et vers la loi de Rayleigh géné- 
ralisée pour l'hypothèse 77, (cf. [5] pages 187-188), de paramètres 


respectifs [cf. (5.123)-(5.123”)] + dt et (74 dY, _ ax, , AN étant 


donné par la formule (5.115). Les probabilités de fausse alarme et 
de perte du signal sont alors [cf. (5.52) et (5.53)] 
a=e ‘À, (5.130) 


Cy 12 


d —— 
B=e 5°" [ # + 1(y T rdy } dx. (5.130) 
0 


5.3.3. Signal stochastique. Considérons maintenant la méthode 
de détection optimale d'amplitude d'un signal stochastique en con- 
servant les hypothèses faites au début du paragraphe 5.3. Les fonc- 
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tions de vraisemblance seront dans ce cas [cf. (5.97)] 


N 2,0 
Wytrse.rx 9)= [] re RT,  r,>0, 

| (+5 
nn ors|Hi)= ] Le Toi? 


k=1 1 + ke 
ra>0, k=1,...,N, 


0% étant la variance du signal. 
Le rapport de us est 


(ei 02/0? 
AUT "= (14) “exp {rer > LE 
rn>0. k=1,...,N. (5.131) 


Le test d'hypothèse se formule comme suit: le signal est présent 
si la somme des carrés des valeurs échantillonnées r, est non infé- 
rieure à un certain seuil [cf. (5.86) et (5.87)] 


TR>Y (5.132) 


où y est la même constante que dans (5.87) calculée à l’aide de la 
formule (5.88) en remplaçant évidemment _ par (=). 


Comme ri sont des variables aléatoires indépendantes réparties 
suivant une loi exponentielle, en utilisant le résultat du problè- 


me 3.16 du premier tome, on trouve que : rk suit une loi du %;., 


En tenant compte du fait que |’ échantillon dés valeurs de |” ns 
pe du processus est deux fois plus petit que l’échantillon du proces- 
sus lui-même (cf. $ 5.1), on voit que les formules (5.90) et (5.91) 
pour les probabilités de fausse alarme et de perte du signal ne chan- 
gent pas dans le cas de la méthode de détection optimale d'amplitude. 
Ainsi, les procédures optimales de détection d'un signal stochastique 
d’après les méthodes avant et après démodulation coïncident. On 
pouvait s'attendre à ce résultat. En effet, dans le cas envisagé les 
fonctions de vraisemblance des échantillons de phase en présence et 
en l'absence de signal sont les mêmes 


41 1N 
Win (91, Ow| Ho) = Wa (0... On] H)= (5) , 


du fait que la densité de probabilité unidimensionnelle de la phase 
d’un processus aléatoire normal stationnaire ne dépend pas du spectre 


20—0682 
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énergétique (de la variance) du processus, étant toujours égale à 
5 | 9, | L r. Le rapport de vraisemblance est dans ce cas identi- 


quement égal à l'unité. Par conséquent, dans le cas envisagé on ne 
peut pas, d’après les échantillons indépendants de phase, distinguer 
un bruit pur de la somme d’un signal et d’un bruit, c’est-à-dire ré- 
soudre le problème de la détection d’un signal stochastique. 

Pour réaliser la méthode de détection de phase d’un signal stochas- 
tique il est indispensable d’avoir des échantillons indépendants 
de différence de phases *) A6,, ..., A, où AB; = (t; + t) — 
— Ÿ (t;), 7> 0. Utilisons la formule (8.82) du premier tome pour 
trouver la fonction de vraisemblance d’un échantillon de différence 
de phases pour un bruit 


1—R2SAN 
Ws (AG, .… D ai à +.) x 


27 
he sin Yk 


TT (+ re mu. (5.133) 


LABS, k=1,...,N, 


où 
Ya = Ro(t) cos [Ÿ (x + T) — À (lx)] ; (5.134) 
R3 (t) = Rio (tt) + Ro (t) ; (5.134") 
Ro (T) — L | Fi (©) cos (© — «o) + do ; (5.135) 
0 
R:0 (T) — _ \ Fi (©) sin (© — 0) T der; (5.135) 


0 
F}) (w), 6° étant le spectre énergétique et la variance du bruit. 
La fonction de vraisemblance de la somme du signal et du bruit 
est 
{—R2\N 
W, (AB, ..., A8, | H1)= (— L X 


21 À 


—— —-arc sin zk 


X Il E Fe tonne . (5.136) 
LABil<z, 41, N, 
où e 
zn = R:; (t) cos [Ÿ (éx + Tt) —Ÿ (!{)] ; (5.157) 
RE (r) = Rà (1) + RÀ (D: (5137) 


*) Ceci a lieu, par exemple, dans les problèmes de la réception en diversité. 
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Ra(r)= ER NAOEET (w)] cos (u—«9) Tdw; (5.138) 
Rs, = | LFs (©) + Fi (w)] sin (0 —w0) t do ; (5.138”) 
. Ü 


Fs (©), 6% étant respectivement le spectre énergétique et la variance 
du signal. 
Le rapport de vraisemblance est 


L (A, A8 y) = (HE) x 


x ; : 
1— y? 1 +28 (++ arc sin zu) (1 — 2?) 


, (5.139) 


k-:1 1 + yr (+ +are sin yn) A— y) 
LAB: <a, i—1,...,N. 


Le cas général est très difficile à étudier, c’est pourquoi nous 
allons nous limiter au cas où les échantillons de bruit Ÿ (4, + t) et 
ÔŸ (4,) ne sont pas corrélés, c’est-à-dire où Ro(t)=0, T >0 
(cf. (8.81), tome I) et 05 < 0° (signal faible). Introduisons la notation 


| R° (x) = Ré (rt) + R5 (x), (5.140) 
où 
R.(T) = | F3 (w) cos (© — uw) t dw, (5.141) 
U 
R;(T) = ce | Fs (w) sin (6 — wo) t do, (5.141”) 


et utilisons le fait que le rapport (æ) est petit, il vient 


an 
Er 


R;(t) = 


R (x). (5.142) 


0° 


Posons dans (5.139) R, = 0 et tenons compte de (5.142), il vient 


. 
In L(A84, .…, A7) & 4 (%)" 5! cos A8: — 


R=1 


et (&)", lOi<n, i=1,...,N. (5.143) 


20+ 
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Le test d'hypothèse se formule alors comme suit : le signal est pré- 
sent si 


D cos A1 > (5) me+ AS (&). (5.144) 
k=1 


Og 8 G 


La procédure optimale de détection consiste à comparer le signal 
à la sortie de l’intégrateur (additionneur) des cosinus des différences 
de phases avec un seuil donné à l'avance. 

Si l’échantillon est de taille importante (NW Ÿ> 1) la loi de répar- 
tition de la somme des variables aléatoires indépendantes cos Aôx 


est voisine d’une loi normale de moyenne et de variance égales à 
(cf. $ 8.4.4, tome ÎÏ) 


N 
m, { Ÿ cos A] Ho} —0, (5.145) 
R=1 
N 
m: (3 cos A: | Hi} = (=). (5.145) 


N N 
Ma {3 cos Ad | Ho} = Ma {D cosAt| Hi} =. (5.146) 
R=1 R=1 


Les probabilités de fausse alarme et de perte du signal ont pour 
expressions *) 


a=1—r| te (2) + ES) V2N], (654147 


taRV2N \Ss 
Br E)-S (SE) V2]. (614) 


5.4. DISCRIMINATION DES SIGNAUX 


5.4.1. Notes préliminaires. Jusqu'à présent nous avons envisagé 
seulement le cas de la détection d'un signal d’après une certaine 
réalisation du processus à l’entrée d’un récepteur pouvant être soit 
un bruit, soit la somme d’un signal et d’un bruit. Dans de nombreu- 
ses applications on voit apparaître des problèmes plus compliqués. 
Par exemple, le processus observé z (t) peut être la somme d'un bruit 
et de l’un des signaux appartenant à un ensemble donné de signaux 
So (t), - : -, Sm (t). Le problème se pose comme suit: d'après une 


*) Comparer (5.147) et (5.148) avec (6) et (6”) dans le problème (5.5). Si 
l'on tient compte du fait que dans le cas envisagé la taille totale de l'échantillon 
est 2N, on voit que la caractéristique de détection d’un signal stochastique, 

our les restrictions mentionnées ci-dessus, tend vers la caractéristique de 
Rétection d'un signal déterministe par la méthode d'amplitude, de paramètre 


pe fois plus petit (pour a = a) 
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réalisation du processus zx (£) observé sur l'intervalle (— T, T) 
décider lequel des signaux mentionnés est réellement présent dans le 
processus observé. 

Un problème analogue de discrimination des signaux apparaît en 
télécommunications, lorsqu'il s'agit des dispositifs de décodage des 
communications. Dans d’autres cas il faut dire si le processus obser- 
vé est uniquement un bruit, ou si c'est un mélange additif du bruit 
avec un ou plusieurs signaux de l’ensemble donné de signaux. Dans 
la radiodétection (radar) ces problèmes sont parfois appelés problè- 
mes de distinction des signaux. Dans le cas général les problèmes men- 
tionnés se rapportent à la classe des problèmes à alternatives multi- 
ples (cf. $ 1.4.9). Nous allons étudier dans ce qui suit quelques pro- 
blèmes relativement simples de ce type, leur solution étant cependant 
intéressante par elle-même pour certaines applications pratiques. 

5.4.2. Deux signaux déterministes *). Supposons que l'on sache 
que le processus observé est un mélange additif d’un bruit normal 
stationnaire et de l'un des deux signaux déterministes so (t) ou & (6). 
Il s’agit de vérifier l'hypothèse simple A, que le processus observé 
est réparti suivant une loi normale de moyenne s, (t), contre l’alter- 
native simple Æ, que ce processus est également réparti suivant une 
loi normale mais de moyenne s, (4). 

Conformément au $ 3.4, choisissons en tant que coordonnées 
observées les coordonnées non corrélées 


T 


m=V | z (4) qu (t) dt, (5.149) 


=T 


z (t) étant une réalisation du processus sur l’intervalle d’observa- 
tion (—T, T); À, et px (t), les nombres caractéristiques et les fonc- 
tions propres de l'équation intégrale 


T 
p(#)=2 | B (y—1) (y) dy, (5.150) 
-T 


où B (x) est la fonction de corrélation donnée du bruit. 

En se limitant aux V premières coordonnées et compte tenu de 
(3.62), on peut écrire comme suit le logarithme du rapport de vrai- 
semblance pour l'échantillon z,, ..., zx de taille W 


N N 
Inl(zs...,2n)=—5 D (ai—b)+ D'(b—a)z, (5.151) 


R=1 R=1 


*) Ce paragraphe peut être considéré comme une généralisation du}$ 5.2.1, 
dont les résultats sont un cas particulier pour so (t) = 0 et s1 (t) = s (t). 
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ou 
T 
en Vu | 5() qd: (5.152) 
. 
b— VA | s1 () pa (1) dt. (5.152’) 


On aura alors le test d'hypothèse suivant : on décide de la pré- 
sence du signal s, (t) si pour l'échantillon observé on a 


N 
Y (bx — an) m>inc++ Y (bi — aÿ), (5.153) 


kR=1 R=1 


et de la présence du signal s, (t) si c’est l'inégalité inverse de (5.153) 
qui est vérifiée. 

Ainsi, l'algorithme de discrimination se réduit au calcul de la 
somme pondérée des coordonnées observées et à sa comparaison avec 
un seuil établi à l'avance: 


N 
Kx=inc++ Ÿ (b$ — ai). (5.154) 
k—1 


Cet algorithme est optimal par rapport à tous les critères de qualité 
(sauf les critères d’échantillonnage progressif) mentionnés dans le 
premier chapitre. Le choix du critère de qualité n’influe que sur la 
grandeur c. 

En répétant les raisonnements du $ 5.2.1 on obtient les probabi- 
lités conditionnelles d’erreurs de première et de seconde espèce (pro- 
babilités de confusion des signaux) 


a=1—F(5e+ tas), (5.155) 
I 1 
p=r (= 7): (5.156) 
où 
N 
dù = e (br — an). (5.157) 


Si les résultats des observations ne peuvent être échantillonnés 
et si toute la réalisation x (t) se trouve utilisée sur l'intervalle d'ob- 
servation, le test d'hypothèse se formule comme suit [cf. (3.81)]: 
dans le processus le signal s, (t) est présent si 

T T 
| V(thz(tdt>Inc Le | V(t)[s()+s()]dt= KT, (5.158) 


ST -T 
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et le signal s, (t) pour l'inégalité inverse de (5.158). La fonction 
V () est la re de l'équation intégrale linéaire non homogène 


: B(t—u)V(u)du=s;(t)—s0(E). (5.159) 


Les probabilités de confusion des signaux sont données par les for- 
mules (5.155) et (5.156) où l’on remplace d, par d- donné par la 
relation [cf. (3.87) et (3.88)] 


T 
dr — | V (t) [si (4) — 50 (4)] de. (5.160) 
2T 
Lors de la discrimination des signaux noyés dans un bruit blanc 
additif la solution de l'équation intégrale (5.159) est 


V (= 9 151 (4) — 50 (OI, (5.161) 


où Vh est la densité spectrale du bruit. Dans ce cas l'inégalité (5.158) 
peut s’écrire comme suit : 


T 
| Lss() —s0()] x (0) dt > Noln c+ 
CT 


+ f 


js 


[()—$(@Idt-Nolnc+ EE, (5.162) 


Lé 


où E, et E, sont les énergies des signaux s;, (£) et s, (t) sur l'interval- 
le d'observation. 


Après transformations algébriques simples l'inégalité (5.162) 
devient 


ICE) dt— IC ()—r(bldt>Nolnc. (5.162) 


Les intégrales dans (5.162”) peuvent être appelées distances respecti- 
ves entre la réalisation observée x (t) et les signaux s, (t) et s, (t). 
Le test d’hypothèse indique qu'il faut calculer la différence de ces 
distances et la comparer avec un seuil dépendant du critère de quali- 
té et de la densité spectrale du bruit blanc. Pour le critère du maxi- 
mum de vraisemblance (c — 1) on adopte la décision que c'est le 
signal le plus proche de la réalisation observée qui est présent. Cette 
règle est à la base du récepteur parfait de Kotelnikov. La caracté- 


ristique de fonctionnement de ce récepteur est donnée par la grandeur 
[cf. (5.160)] 


Le 


dr = + Î [si (2) — so (L)I° de, (5.163) 
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c’est-à-dire par le rapport de la distance entre les signaux à la den- 
sité spectrale du bruit. Avant trouvé à l’aide de (5.163) la grandeur 
dr, on peut utiliser pour les calculs les courbes données sur la figu- 
re 5.1 [cf. (5.155) et (5.156)1]. 


Notons que pour des signaux orthogonaux pour lesquels on a 
T 
{465 (d= 0, 
2T 


æ « E LE, , « ° ,» 
la grandeur df est égale à SE. , c’est-à-dire au rapport de l’éner- 


gie totale des signaux à la densité spectrale du bruit (pour E,=E:=E 


9 
on à dr — x.) . La valeur maximale possible de d? est égale à V- 
et correspond à s, (£) = — so (6). 


En vertu de (5.162), le récepteur optimal pour la discrimination 
de deux signaux déterministes noyés dans un bruit blanc normal 
additif se compose de deux filtres adaptés (ou de deux corrélomètres, 
cf. $ 4.3.4) de fonctions de transition impulsionnelles 


hô (T) = s(T — 71), IT |I<T, (5.164) 

1 =s(T—7,), |IT|<T, (5.164”) 

suivis de dispositifs de sélection, de soustraction et de coupure. 
Pour des signaux de même énergie (£, — E:), lorsque l’on utilise 
le critère du maximum de vraisemblance, les deux derniers dispo- 


sitifs sont remplacés par un dispositif de comparaison, car dans ce 
cas le test (5.162) devient : le signal s, (t) est présent si 


T T 
Î a(t)z(t)dt> | so(t)z(t)dt. (5.165) 
T =T 


5.4.3. Deux signaux d'amplitudes inconnues. Supposons mainte- 
nant que l’on connaisse les signaux à un facteur d'amplitude À près. 
Le problème de la discrimination des signaux est maintenant dans 
la vérification de l’hypothèse composite H, selon laquelle le processus 
observé suit une loi normale de moyenne 45, (t) contre l'alternative 
composite H, que la moyenne de ce processus normal est As, (6). 

Supposons que nous n’ayons aucune information a priori sur le 
paramètre À. En utilisant les résultats du $ 3.5.3 il est facile de 
voir que le logarithme de la fonctionnelle du rapport de vraisemblan- 
ce peut s’écrire comme suit : 


T T 
In L {x (#)] -= À RADECT EE (vo (so()+s (dt, (5.166) 
CT TT 


où V'(t) est la solution de l’équation intégrale (5.159). 
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Par conséquent, pour À >> 0, pour le test uniformément le plus 
puissant l'hypothèse #, est rejetée, c'est-à-dire que l’on affirme que 
c’est le signal As, (t) qui est présent, si pour la réalisation observée 
x(t)ona 


T 
{ V(t)z() dt >Kr. (5.167) 
TL 


Le seuil XÀ- est donné par la probabilité « d'erreur de première es- 
pèce 
Ki = dr; (5.167) 


où zx, est le quantile de la loi normale, d- étant donné par (5.160). 
Si A<ZO le sens de l'inégalité (5.167) se trouve changé, et la 
grandeur À; remplacée par — X.. 
En vertu du test uniformément le plus puissant non biaisé il y a 
lieu de rejeter l'hypothèse FH, si 


T 
| RACE dt\>Kr. (5.168) 
-T 


Ainsi, le dispositif optimal (d'après le critère de Neumann-Pearson) 
de discrimination de deux signaux d’amplitudes inconnues noyés 
dans un bruit blanc additif est en principe le même que dans le cas 
de signaux donnés. 

En particulier, pour ss (t) = 0. en vertu de (5.167) l'algorithme 
optimal de détection du signal déterministe 4s (4) d'amplitude incon- 


nue À se réduit à la comparaison de la grandeur [ V (t)x (6) dt avec un 


ST 
seuil, V (t) étant la solution de l'équation (5.22) [coïncidant avec 
(5.159) pour s, (t) = s (t) et so (t) = 0]. C'est ce qu’impose le test 
(5.21) lors de la détection du signal déterministe s (£). Les caracté- 
ristiques probabilistes de la détection dépendront évidemment de la 
grandeur À, car dans ce cas le paramètre d- [cf. (5.23)] sera 


T 
dÿ= 4° | V (st) dt. 
2T 


Indiquons un autre critère qui n'est pas lié à l’information a priori 
sur le para mètre inconnu, c’est le critère du maximum de vraisem- 
blance (cf. $ 1.4.3). En vertu de (1.116), dans ce cas il faut d’abord 
trouver les maxima de la fonction de vraisemblance pour les deux 
hypothèses et comparer leur rapport avec l’unité. En prenant pour 
coordonnées observées les grandeurs zx, données par (5.149) et en 
conservant les notations (5.152), (5.152”), on peut écrire comme suit 
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les fonctions de vraisemblance de l’échantillon x,, . .., zx pour les 
deux hypothèses concurrentes *) : 


N 
Ld y | 1 9 
W,. (x, ... 2x1 Ho) exp] —5 X (zu — Aa |, (5.169) 
i h=1 


N 
UE exp[ —5 D (A) |. (5.169) 


k=-1 


Les fonctions f (4) et In f (4) ayant des maxima pour une même va- 


leur de À, il est facile de montrer que le maximum de la fonction 
(5.169) a lieu pour 


Wy (x: ...) zx | Hi) = 


N 
Dan 
À = = —, (5.170) 
> a 
k=1 
et celui de la fonction (5.169”) pour 
N 
Ÿ bhTh 
À == —. (5.170') 
Ÿ & 
h=1 


En remplaçant À dans (5.169) par la grandeur À,, et dans (5.169) 
par la grandeur À,, on obtient 


max Wy(rs, ..., rx | Hi) N : : N : 
A ue 2 2 
In max W (ETR ss TN | Ho) ce 2 ( >» bat) 24+ > ann ) j 
A n—! ar 
(5.171) 
où 
) N o 
dvo= À a; (5.172) 
h=1 
n a n 
dni= 2 br. (5.172) 


Le test d’hypothèse basé sur le critère du maximum de vraisem- 
blance peut se formuler comme suit: c’est le signal Às, (t) qui est 
présent si 

N N 


| ba) > (3 am), (5.173) 


dx: k— dYo 
et le signal 45, (t) pour l’inégalité inverse de (5.173). 


*) Rappelons qu'au $5.2.1 nous avons montré que M2 {xr;} = 1. 


— 
— 
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Lorsque les énergies des signaux sont égales (dy0o — di) la rela- 
tion (5.173) devient (5.153) pour c = 1. 

En utilisant les résultats du $ 3.4.4, il est facile d'écrire la rela- 
tion (5.173) sous forme analogique, soit : 


T T 
a Vi (4) z (6) à) > ({ Votz(dt), (5.174) 


où 
T 
dh= | Visa; (5.175) 
T 
T 
ds { Vo(t) so (6) dt, (5.175) 
-T 
et V, (t), Vo (£) sont les solutions des équations intégrales 
T 
| BG) Vi(u)du=si(e), |t]<T, (5.176) 
ET 
T 
| BG—u) Voltdu=so(t), l|<T. (5.176) 
-T 


Le récepteur optimal se compose dans ce cas de deux filtres adap- 
tés de fonctions de transition impulsionnelles 
h% (x) = _ VolT =, ITI<T, (5.177) 
h? (x) = - V,T—x, ITI<T, (5.177°) 
suivis de dispositifs de sélection, d’élévation au carré et de compa- 
raison. 
Dans le cas de la discrimination de deux signaux noyés dans un 
bruit blanc les solutions des équations intégrales (5.177), (5.177') 
sont 


Vo (t) = F0 (t), Vi()= Fe S (£), 


et (9.174) donne le test suivant : c’est le signal Às, (t) qui est pré- 
sent si 


T T 
i ù 2 4 2 pe 
| | St (£) x (£) dt > + | { So (£) x (4) dt , (5.176) 
ST -T 
E, et E, étant les énergies des signaux s, (t) et s, (t) sur l'intervalle 
d'observation. Pour £, = E;, l'inégalité (5.178) devient évidem- 
ment (5.165). 
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Si l'on se donne la densité de probabilité a priori w, (4) du para- 
mètre À, on peut utiliser le critère de Bayes de risque moyen mini- 
mal. Dans ce cas conformément au $ 1.4.2 on calcule le rapport des 
fonctions de vraisemblance centrées [cf. (5.169) et (5.169°)] 


co N 
| w, (4) exp [+ ÿ (zx — Ab)" | dA 
Ar ces En) — (5179) 
| w;(4)exp [+ Y (zx — 4ax? | dA 
— ® k==1 | 


et suivant que cette grandeur surpasse ou non le seuil c (donné par 
les probabilités a priori d'apparition des signaux et de coût des 
décisions) on adopte la décision sur la présence de l’un des signaux 
As, (t) ou A5 (t). 

A titre d'exemple, nous allons considérer le cas où la densité 
de probabilité a priori de l’amplitude À est normale de moyenne À; 
et de variance 04, c’est-à-dire 


D; (À) = 


1 …[ _(4—40} : 
7 exp| TE le (5.180) 
Portons (5.180) dans (5.179) et calculons les intégrales figurant 
dans le numérateur et le dénominateur, il vient 

1, 1+0%d%1  AÀÿ 
10 + — 
In À (x, » TN) 2 ü io, À 2 X 


a N 
d; d* b 
NO N1 | a 


1+044N0 


"à ] za + 24 “a — (5 biz) — 


E 1+0%4d%0 1+0%d%: tar 
1 : 2 
a — ne 9.181 
RE (3 aa) J, (6.181) 


où dYÿo et dv: sont donnés par (5.172) et (5.172”). 
Le test de Bayes se formule alors comme suit: c'est le signal 
As; ” qui est présent si 


2 
a Lonn ETF mn +R ——— Ter ( bzx) _ 


R=1 


N 
: (5 az) |>EÆx (5.182) 


DE. 2 32 
1+0%d%0 ‘2 
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où 
A5 d°, d? 1+ 024? L 
Ky=Inc+— (2-7) + in . (5.182) 
* 1+04dNi  1+04dN0 + CAN! 


Pour 64 — 0 la fonction w, (A) — ô (4 — À,) et l'inégalité 
(5.182) devient 


N 9 
A5 ,, 9 
Ao D) (br — an) xx > In c+ (di — dNo), (5.183) 
k=1 


par conséquent, ce test coïncide avec le test de Bayes de discrimina- 


tion de signaux entièrement connus (avec la condition évidente 
À, — 1). 
Pour O4 — © on trouve à partir de (5.182) 


N 
1 2 1 2 | 
bat) —-— ( ant) >inc — In 
242, D hCkR 242, Y RLR +5 
k=1 


2 


d= 
—. (5.184) 
- an: 


Les opérations essentielles auxquelles doivent être soumises les 
coordonnées obvervées, sont ici les mêmes que dans le cas du critère 
du maximum de vraisemblance [cf. (5.173)]. La différence est en ce 
qu'au lieu d’une simple comparaison entre elles des sorties des dis- 
positifs d’élévation au carré, leurs différences sont comparées avec 
un certain seuil fixé à l'avance. 

Pour des signaux de même énergie (dyo — dn) les formules 
(5.182) à (5.184) se simplifient comme suit 

N 


N e 
Ao À} (bx— an) zx + Di (bk— ai) ai > (1+oä)lne, 
k=1 hk=1 


N 
À » (bx—ar)tza>lnc pour 64— 0, 
k=1 


N 
2 (bi—a)r?>2lnc pour G4-—> 00. 


Notons que le processus quasi déterministe Às (t) d'amplitude 
aléatoire À est souvent utilisé dans les applications comme modèle 
d'un signal noyé dans un bruit multiplicatif (stationnaire), variant 
lentement durant la période d'observation (ou sur un intervalle égal 
à la durée du signal impulsionnel). 

9.4.4. Deux signaux à bande étroite de phases aléatoires *). 
Nous allons maintenant étudier le problème de la discrimination de 
deux signaux quasi déterministes à bande étroite noyés dans un bruit 


*) Les résultats du $ 5.2.2 sont un cas particulier pour s, (4) = 0, s, (t) = 
= s (1) des résultats figurant ici. 
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blanc additif dont les a mplitudes et les phases sont modulées suivant 
une loi donnée et dont les phases initiales sont aléatoires, indépen- 
dantes et uniformément réparties, soit : 


So (t) = &o (t) cos Lwot — 0 (f) + Pol, (5.185) 
S, () = a (e) cos Lot — pu (6) + pl. (5.185"} 
Supposons que l’on ait 
O<A— nn & o. 


Exprimons les processus à bande étroite en fonction de l'enveloppe 
et de la phase, ayant choisi pour pulsation centrale 


&9 + Of 
‘) e 


En répétant les raisonnements du $ 5.2.2, nous pouvons dans le 
cas envisagé obtenir l’expression suivante pour le logarithme du 
rapport des fonctions moyennes de vraisemblance de N coordonnées 
non corrélées de ÉANEOpe complexe Îcf. (5.42)]: 


AT TR san er{ 55 [| Ska [° —| Sao [°] } X 


O* = 


2x 
Ÿ exp[rx1 cos (pi — ail dm: 
SE (5.186) 


2x 
Ÿ exp [rx0 Cos (Po — #:v0)] dpo 
U 
où 
N —— 
N Im > RSR! 
r\i = | > ZhSh1 | 5 ni = arc itg ————; (5.187) 
h=1 Re >, ZRSkh1 
k=1 
N 
Im > ZRkSRO 
Pro = Arc tg — 5 —. (5.187’) 
Re >. ZRSRO 
k=1 
Les grandeurs 5,0 et s11 sont les coordonnées des enveloppes com- 
plexes des signaux [{cf. (5.39”)] données par les formules 


Sho — Va. 


rxo = | > Zn Sho 


20 (4) ei" Sp (£) dt, (5.188) 


St = V'An | zu (6) ets (6) di, (5.188°) 


ae AE 
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Zs0 (4) — 4 (£) e”iYsolt); Z s1 (£) —_ di (£) e7Hbsit), 


Intégrons (5.186) et prenons le logarithme, il vient 


N 
> | » 4 
In Az, -..,2y)=1n Jo(rxs) — In o(rvo) —+ À (sal —|s40l°], 
h=1 


(5.189) 


où Z, (r) est la fonction de Bessel d'ordre zéro de l’argument imagi- 
naire. 

Le test de Bayes basé sur la relation (5.189) se formule comme 
suit : on adopte la décision y, que c’est le signal s, (t) qui est présent 
si pour l'échantillon observé on a l'inégalité 


N 
1 à à : 
In Zo(rw)—In lo(rxo) Zn c+- D [su l—|s10/1=Ax, (5.190) 
Rk=1 


et la déciison y, affirmant la présence du signal s, (t) pour l’inéga- 
lité inverse. 

Si la discrimination s'effectue non pas d’après un échantillon 
discret, mais d’après la réalisation z (t) de l’enveloppe complexe ob- 
servée sur l'intervalle (— 7, T), en vertu de (5.190) pour # — 
[cf. (5.62)] on a 


d? —dF - 
In Zo(rri) — In Zo(rro) > In CR AT: (5.191) 
oil 
T 
_ =| | U,()z0a&|, (5.192) 
-T 
T 
dn= | Ui(zate-is dt, (5.192) 
T 
T 
rro=| \ Uo(t)z0 dt}, (5.193) 
ST 
T 


d=| | U, (2) 250 (ei dt|. (5.193') 
-T 
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U, (t) et U, (£) étant les solutions des équations intégrales linéaires 
non homogènes 
T 


| 82 (t—u) Us (u) du = su (ey efts, IST, (5.194) 
-T 


T 
| B,(t—u)Uolu)du=so(the-its, |el&T, (5.194) 
-T 


où 24 (£) et z,0 (é) sont les enveloppes complexes des signaux s, (+) 
et So (£), et B: (t), tout comme dans (5.35), la fonction de corréla- 
tion de l’enveloppe complexe du bruit. 

Les variables aléatoires rr1, rro dans l'inégalité (5.191) sont 
réparties suivant la loi de Rayleigh généralisée, car ce sont les modules 
des vecteurs plans dont les composantes sont indépendantes et nor- 
malement réparties. Les moyennes et les variances de ces vecteurs 
(qui sont des variables aléatoires complexes), compte tenu de (5.194) 
et (5.194), “ii 


=) 


T 


Mio = M { î U, (26) dt| Ho) = Î | Ben) #16 Dotuÿ t au, 
DE (5.195) 
T —— T T 
my = mi À | U, OFOLAEN : ( | B(—u)v, (t) U (u) dt du, 
sn no (5.195') 
T T 
Mo = M { | Uotz@ &| Ho} = | (2. (t—u) U, (4) Us {u) dt du, 
s oi (5.195") 
TT 
Mo = M, { Î Un (t)z 2) dt | H4} = { Ê 86-100 Dit at au 
(5.196) 


Mu= M { f U; (t)z0) dt | Ho, Hi} ” 
-T 


TT 
= | Î B.(—u) U(9 D dt du, (5.196') 
z TT 
Mao=Ma { { Uo(t)z(0 dt| Ho, Hi} . 
-T 


TT 


_ | | B:(—u) Us (s) Do tu) dt du. (5.196”) 
TT 
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A titre d'exemple nous allons étudier le cas simple de la discrimi- 
nation de deux signaux noyés dans un bruit blanc additif reçus en 
manipulation de fréquence lorsque a, (t) = ao (t) = Ào, Da (t)= 
= 4,0 (t) = 0. Nous allons utiliser le critère du maximum de vrai- 
semblance (c = 1). Le test (5.191) se trouve maintenant simplifié : on 
décide que c’est le signal s, (£) = À, cos (ait + p;) qui est présent si 

In Zo (Frs) > In Lo (rro); (5.197) 
et le signal so (t) = À, cos (ot + po) pour l'inégalité inverse. 
Comme le logarithme de la fonction de Bessel modifiée In 7, (r) 
est une fonction monotone de l'argument r, le test (5.197) revient 
à établir laquelle des grandeurs r-, ou rr, est plus grande. Ainsi, 
nous adoptons que c’est le signal s, (£) qui est présent si 

Tri > ro (5.197°) 
Ecrivons sous forme explicite les grandeurs figurant dans (5.197”), 
tenant compte du fait que dans le cas envisagé on a 

Zs (6) = 250 (é) = Ào 
et que pour un bruit blanc de densité spectrale NW, les solutions des 
équations (5.194) et (5.194”) sont 
1 Ào : 
Uo(t) = Fe e-ita, U,(t)= Fe eita. 


On obtient, à partir des Te (5.197), (5.192) et (5.193) le test 
suivant de discrimination des signaux : on adopte que c'est le signal 
de pulsation w, qui est présent si on a 


0) — Op Gi — 0 


T T | 
| EU 2 at|>| Ge z |, (5.198) 
-T 


En exprimant l’env eloppe complexe en fonction des composantes en 
quadrature [cf. (5.32° e on peut écrire (5.198) comme suit 

T 

{ A (E) cos EC + dt Ï C (sin 0 14 > 


—T 


T : T 
> [AG)sin 0% ; dé | Ctcos 2 1 de. (5.198) 
-T 2T 


conne A (t) et C(f) sont des fonctions variant lentement (cf. 
$ 6.2.2, tome Î), négligeant les intégrales du produit de ces fonctions 
par les porteuses haute fréquence du type cos @t (pour & > &) le 


test (5.198) peut s'exprimer en fonction de la réalisation d du pro- 
cessus reçu 


z (4) = À (#) cos “OL ++ C (e) sin EL 4. 


21—0682 
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Ro 
RE 


On adopte la décision que c’est le signal de pulsation w, qui est 
présent si, pour la réalisation x (t) observée sur l'intervalle (—T, T), 
on a 


x (t) cos @it dt)" + ( x (£) sin œié d\"> 


] 
DJ à me) 
Le 


> | [20 nt ( 00 sin @yt dt}. (5.199) 
-T 


Le récepteur parfait de discrimination de deux signaux harmoni- 
ques correspondant au test (5.199) se compose de filtres adaptés à 
ces signaux (de durée finie, de pulsations w, et w,; cf. problème 4.6), 
suivis de dispositifs d’élévation au carré, de sommation et de com- 
paraison. 

Notons que dans (5.199), on compare les carrés des valeurs des 
enveloppes du processus observé à la sortie de deux filtres adaptés 
aux signaux. C’est pourquoi un récepteur optimal de discrimina- 
tion de deux signaux peut être interprété à l’aide de deux filtres 
adaptés aux signaux, de détecteurs linéaires séparant l’enveloppe 
des processus et d’un dispositif de comparaison. 

Cherchons les probabilités d’ erreurs. Pour l'exemple envisagé 
on trouve à partir de (5.195) à (5.196) 


M0 —= Moy — df ES (9.200) 
Mi = Moo = Mas = Mio = df, (5.201) 
où 
ee 2. eT ot 
dr — No (5.202) 


c'est-à-dire que df est égal au rapport de l'énergie du signal à la den- 
sité spectrale du bruit. 

Si 2TA = (@, — wo) T = kn, k = 1, 2, ..., les signaux sont 
orthogonaux sur l'intervalle (—7, T). En vertu de (5.200) les valeurs 
moyennes des composantes de vecteurs aléatoires normaux s’annu- 
lent. Ceci signifie que les variables aléatoires r;, et r-, sont alors 
réparties suivant une loi de Rayleigh. On peut alors obtenir l'expres- 
sion des probabilités des erreurs sous forme fermée. En effet, la pro- 
babilité conditionnelle de prendre la décision que c'est le signal 
s, (ft) qui a été transmis, alors qu'en réalité a été transmis le signal 
So (té), est égale à 
a = P{ymlHo}:= P {rri>rro| Ho} = 

oo Ld La 
. 2 - 
= (sexp(- Se) Lo (ue 2 Qy dr — 


(} 
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= fev (-ÆE8) nas 
L = EVY+(E) 
te + D yap( 6, 


x D (:V357) 4 G V2, 


et comme la dernière intégrale est égale à l'unité on a 


a=+e LE (5.203) 


Il est facile de voir que les probabilités conditionnelles d'erreurs 
de première et de seconde espèce sont égales entre elles, en effet 


B= P {ol Hi}= P{rro > rr1l Hi} = 


_wE+dT SE 2 x? | 
= + | ve #T Jo(y) | ze TT drdy=@. 
T 
0 y 


Notons que l'algorithme optimal de discrimination de deux si- 
gnaux à bande étroite À cos (@ot + po) et À cos (œit + p,) d'ampli- 
tude inconnue À et de phases aléatoires uniformément réparties ne 
diffère pas de (9.197). La grandeur À n'aura d'influence que sur le 
paramètre dÿ [cf. (5.202)] donnant la probabilité d'erreur. 

9.4.9. Discrimination de plusieurs signaux. En continuant à 
à généraliser *) nous allons passer à l’étude du problème de la dis- 
crimination de plusieurs signaux. Supposons que l’on sache que le 
processus observé est un mélange additif d’un bruit normal station- 
naire et de l’un des m + 1 signaux déterministes so (t), s1 (t), . .. 

.. Sm (t). L'ensemble des décisions contient maintenant non pas 
deux mais m+ 1 décisions Yo; Yi, + + :» Ymr Où y4 est la décision què 
le processus observé se compose du bruit et du signal 54 (£). Nou 
allons adopter le critère de qualité de Bayes, dans l'hypothèse sup- 
plémentaire que les coûts des décisions correctes sont nuls, et ceux 
des décisions erronées sont égaux. Supposons de plus que la trans- 
mission de chacun des signaux soit équiprobable **). En vertu de 


*) Les résultats des paragraphes précédents de ce chapitre peuvent être 
obtenus à partir de ceux qui vont être donnés ci-dessous en posant m = 1. 
**) Si la probabilité a priori du signal sx (t) est égale à p,, les 
résultats qui suivent restent vrais après substitution de 4 (z1, . .., zn) 


à LICE zx), k=1Â,..., m. | 
21* 
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$ 1.4.8 on peut alors formuler comme suit le test optimal de discri- 
mination des signaux : c'est le signal s, (t), k = 1, ..., m qui est 
présent si pour tous les j  k pour l'échantillon observé x;, ..., zx, 
on a 


In 4 (x, ..., zwy) > lnl;(xi, ..., xN) (5.204) 
et 

In, (x, ..., zn) > 0 (5.204") 
pour k donné, et le signal s, (£) si pour tous les Æ (k — 1, ..., m) 

on a 
In Lx (zi, . .., zu) 0. (5.204”) 
Dans les inégalités mentionnées le rapport de vraisemblance est 

_ Wiy(z, ..., znlsk) . 

ln (Zi, EN pat  enlo) ? k = 4, ... M. (5.205) 


En prenant pour coordonnées observées les variables zx; données 
par (5.149), et en se limitant aux W premières coordonnées, le loga- 
rithme du k-ième rapport de vraisemblance s'écrit [cf. (5.151)] 

N N 
1 2 2 
In lh (x:, Leds 2N)=+ » (aio— au) + > (Gin — &io) Ti, k= 1, ... M, 


i— 1 i=1 


(5.206) 
où 
T 
Gi = VX À 54 (2) gi (de, k=0, 1, ...,m, (5.207) 
-T 


et À4, p; (t) sont les nombres caractéristiques et les fonctions propres 
de l'équation intégrale (5.150) dont le noyau coïncide avec la fonc- 
tion de corrélation du bruit. 

Les relations (5.204) à (5.204”) et (5.206) permettent de trouver 
le test optimal de discrimination: c’est le signal s, (£) qui est pré- 
sent (décision y, adoptée) si pour tous les j  k (j — 0,1, ..., m) 
on a 


N | N 
ÿ (Gin — 1j) Ti >+ Y (an — ai;). (5.208) 
i-1 


i={ 


Si les résultats des observations ne peuvent pas être échantillon- 
nés et si toute la réalisation x (t) est utilisée sur l'intervalle d’obser- 
vation, on obtient à partir de (5.208) pour V — le test suivant 
[cf. (5.158)1: c’est le signal s, (£) qui est présent si pour tous les 
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j#Æ#k(G=0,1,..., mona 


T T 


IRADEDLES A LOTCICUERTO CCE) 
-T -T 


où V,, (t) est la solution de l'équation intégrale linéaire non homo- 
gène 


= 


B(t—u)Vay(u)du=sa(t)—s;(t), |é|ST. (5.210) 


er 


Lorsque l’on discerne des signaux noyés dans un bruit blanc additif, 
la solution de l'équation intégrale (5.210) est 


Vas (6) = 77e 15 (0) — 55 (OI, 
où V, est la densité spectrale du bruit. Dans ce cas (5.209) s'écrit 
T T E,—E 
fat@z(@a> IBTCETEE, +, j#k, (5.211) 
-T 


-T 


où E, et E; sont les énergies des signaux s, (£) et s, (£) sur l’interval- 
le d'observation. L'inégalité (5.211) équivaut à [cf. (5.162”)] 


T T 
| [s;()— x (0) dt > | [sa (#)—z(0f dt, j#Æk, (5.212) 


-T -T 


celle-ci pouvant être interprétée comme suit: on adopte la décision 
sur la présence de celui des signaux s, (t) pour lequel la distance 
jusqu'à la réalisation observée est la moindre. 

L’inégalité (5.211) montre que le récepteur optimal permettant 
de discriminer m + 1 signaux déterministes noyés dans un bruit 
blanc additif normal se compose de m + 1 filtres adaptés de fonc- 
tions de transition impulsionnelles 


BH =s (TT, |TI<T, (5.243) 
7 = 0; 1; :.:, M; 


suivis de dispositifs de sélection et de comparaison. Pour les signaux 
d'énergie égale on compare les valeurs à la sortie des filtres adaptés 
et l’on prend la décision sur la présence de celui des signaux pour 
lequel cette valeur est maximale (fig. 5.4). 

Nous allons également étudier le problème de la discrimination 
de m + 1 signaux quasi déterministes à bande étroite noyés dans 
un bruit normal additif 


SA (t) — ax (t) cos Lost — ps (6) + pal (5.214) 
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si l’on connaît exactement a, (t) et d,z (t), les phases initiales œx 

étant aléatoires, indépendantes et uniformément réparties sur l’in- 
tervalle (—x, x). 

So Soit wo la plus petite des pulsations 

(+) de signaux et soit 


En Choisissons pour pulsations centrales les 
à grandeurs 

ë oÿ — a F00 

© 


en représentant en fonction de l’envelop- 
pe et de la phase les processus à bande 
Fig. 5.4. Schéma d'un dispo- étroite recelant les signaux s, (#) et so (4). 
sitif optimal de discrimina- D'une manière analogue à (5.189), 
tion de m + 1 signaux déter-  écrivons l'expression du logarithme du 

ministes k-ième rapport des fonctions de vraisem- 
blance centrées : 


In An (21, -.., 2w) = In Lo (fvx) — In Lo (rxo) — 
N 

D Llsml—]siol), k=1,...,m, (5.215) 
i= 1 


où pour tout À de0àmona 


N 
rna=| D sisi | ; (5.216) 
1—=1 
* itA 
sn= Vi | safe "pt; (5.217) 
IT 
zen (t) = an (1) eV ®, (5.218) 


À, @: (t) étant comme auparavant les nombres caractéristiques et 
les fonctions propres de l'équation intégrale linéaire homogène, 
dont le noyau coïncide avec la fonction de corrélation B, (x) de l’en- 
veloppe complexe du bruit [cf. (5.35”)1. 

À partir de (5.204) à (5.204”) et (5.215) on obtient le test suivant: 
c’est le signal s, (t) qui est présent (décision y) si pour l’échan- 
tillon observé z,, ..., Zn et pour tous les j = k on a 


N 
1 , k 
In Zo(rwx)—In Lo(rx5) >> DLlsixl®—|sml#l. (5.219) 


i=1 


Si l’on effectue la discrimination d’après la réalisation z (£) de l’en- 
veloppe complexe sur l'intervalle (—T, T), pour N —+— œonaen 
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C9 
tn 
=] 


vertu de (5.219) 


2 2. 
In Zo(rrr) — In Dr) > TS, ik, (5.220) 
où pour j quelconque de0amona 
T 
=] | V,6:O&|, (5.221) 
IT 
% . 
dà; = | U;(t) 25 De "it, (5.222) 
2T 


U; (&) étant la solution de l’équation intégrale linéaire non homogène 
T 
| BG—y)U;(dy=ns@etts, EIET. (5.223) 
2T 


Lorsqu'on discerne les signaux noyés dans un bruit blanc additif 
de densité spectrale NW, la solution de cette équation est 


{ 
U5(t) = 25 (0) Ci À (5.224) 
les grandeurs r-; et dr; étant égales à 

T 

ri = 7 [Oz @e"æ|, (5.225) 
-T 
1f E; 

h= y | ETOILES (5.226) 

T 


où E ; est l'énergie du j-ième signal. 

Lorsqu'on discerne des signaux de même énergie Æ; = E,, le test 
tenant compte du fait que la fonction In Z, (r) est monotone peut se 
formuler comme suit: c’est le signal s, (t) qui est présent si pour 
tous lesj hf ona 

Trk2 Try (5.227) 
ou 


T T 
| | 3) zx (0) e"rd|<| 2U) cute id.  (5.227') 
2T -T 

Comme les composantes en quadrature z,;(t) et z (t) sont des 
fonctions variant lentement (cf. $ 6.2.2, tome 1), négligeant dans 
(5.227') les intégrales des produits de ces fonctions par les porteuses 
haute fréquence du type cos ot pour © > @,, on peut donner le test 
suivant de discrimination des signaux d'énergie égale noyés dans 
un bruit blanc additif : on adopte la décision que c'est le signal s, (4) 
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qui est présent si pour la réalisation observée x (t) pour tous les 


j=kona 
T 
( À 2 (9) an (9 cos Lont— que (4) dt) + 
-T 
T 
+ | z (6) au (6) Sin [ont — Yns (£)] dé )> 
: 2 
> | | z()a;(t)cosfot—+i (dt) + 
-T 


T 
+(\ z (8) a (4) sin [ot — vs (#)] dt)". (5.228) 


Le récepteur optimal permettant la discrimination se compose de 
2m —+ 2 filtres adaptés aux signaux s4 (6), [t | ST, k — 0,1, ... 
.., m et aux signaux 


sk (8) = an (4) sin lost — 44 (6)1, (5.229) 
ltIST,k=0,1,...,m 


(qui sont les transformées de Hilbert de s, (t) ; cf. annexe VI), ainsi 
que de dispositifs d'élévation au carré, de sommation et de choix 
de la plus grande valeur (fig. 5.5). 

Notons que dans (5.228) on compare les carrés des valeurs des 
enveloppes du processus observé à la sortie de deux filtres adaptés 
aux signaux s4 (4) et s; (ë). C’est pourquoi le récepteur optimal desti- 
né à discerner m + 1 signaux peut se composer seulement de m + 1 
filtres adaptés, dont les signaux de sortie sont démodulés et puis 
appliqués à un dispositif de comparaison, discriminant la plus gran- 
de des m+1 valeurs de l'enveloppe (fig. 5.6). 

Il est facile ici de calculer la probabilité de confusion des signaux 
en imposant les conditions suivantes d'orthogonalité : 


pour j # k 


T 

[ su (t)s(é)dt = 0, (5.230) 
“ 

| st (é)s;(t)dt = 0. (5.230°) 
DT 


La variable r., est alors répartie suivant une loi de Rayleigh de 


para mètre dr — _ si l'hypothèse FH, (le signal s, est présent) n'est 


pas vérifiée et suivant une loi de Rayleigh généralisée de para mètres 
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(dr, dr) si l'hypothèse H, est vérifiée. La probabilité D. de confu- 
sion du k-ième signal avec le j-ième, c’est-à-dire d'adopter la déci- 


Comparaison 


Comparaison 


Fig. 5.5. Schéma d’un dispositif opti- Fig. 5.6. Schéma d’un dispositif 

mal de discrimination de m + 1 si- optimal de discrimination 

gnaux quasi SE IDIReS à bande équivalent à celui de la fig. 5.5 
troite 


sion que c’est le signal s; (t) qui est présent alors qu'en réalité c’est 
le signal s, (t) qui a été envoyé est, pour tous k et j (4 = j), égal à 
[cf. (5.203)] 


o 
1 


dT 
m or = 
Perr = 5 € #. (5.231) 
Problèmes 


5.1. Généraliser les résultats du 8 5.2.2 à la détection d’un signal quasi 


déterministe 
s (t) = Aa (t) cos [@ot — Ÿ, (t) + Po) 


d'amplitude À et de phase aléatoires. Etudier le cas où la phase ne dépend 

as de l'amplitude et est uniformément répartie. Montrer que pour une classe 
étendue de densités de probabilité w; (4) le test optimal de Bayes, permettant 
la détection du signal s ({) noyé dans un bruit normal additif, ne dépend pas 
de w, (4) et est donné par une inégalité de la forme (5.44’) ou (5.62”). Montrer, 
en particulier, que si l'amplitude suit une loi de Rayleigh, à condition que 
M2 {A} = 2, la probabilité de perte du signal est égale à 


Ad K x? 
B(4)=e : {ze S 10 (zA dr) dx, (1) 
Û 
où le seuil X est déterminé par la probabilité donnée de fausse alarme 


: fl | 
K=V/2h1, 1°) 


dr étant donné par (5.61). Pour un échantillon discret, d, est remplacé par 
dy cf. (5.49)]. 
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5.2. Pour les conditions du problème 5.1, dans le cas où l’amplitude 
A est répartie suivant une loi de Rayleigh de variance M2 {A } = 2, trouver 
le logarithme du rapport de vraisemblance centré 


a 2 
2(1+dT) 5 


Montrer que la probabilité de détection correcte et la probabilité de fausse 
alarme sont dans ce cas liées par la relation 


Î 
1—B=a tt 


InA(z,...,2v)= —In (1 +df)+ 


(3) 

Dans les formules (2) et (3) les grandeurs r- et d- sont données par (5.60) 
et (5.61) respectivement. Pour des échantillons discrets, r- et d- sont remplacés 
par rv et dy [cf. (5.42) et (5.49)]. 

5.3. Montrer que la densité de probabilité de la somme des carrés de N 
variables aléatoires indépendantes, réparties chacune suivant une loi de Rayleigh 
généralisée 

r2+a 


wi (r)=re 2 Jo(ar), r >0, 


est de la forme 
N=—1 


7  -He : 
mw=s (+) 8e ? Ina Vy), y>0. (4) 


Obtenir à partir de (4) le cas particulier pour a = O0 de la densité de probabilité 
de la somme de W variables aléatoires indépendantes réparties chacune suivant 
une loi de Rayleigh (loi du 4? à 2N degrés de liberté), soit: 


1 


5.4. En utilisant les résultats du problème 5.3, trouver les probabilités 
de fausse alarme « et de perte d'un signal f lors de la détection d'un signal 
sinusoïdal à l’aide de l'algorithme (5.101) (le rapport de l'amplitude du signal 
à la valeur quadratique moyenne du bruit étant petit). Montrer que pour W 
quelconque on a 


yN—-le-v/2, y > 0. (4°) 


(2e) 
CRT 0 (5) 
T (W, :) étant une fonction gamma incomplète [comparer avec (5.90)], soit: 
2 VEN 
à NE 
B — | z (2) _e d Tx-1 (ax) dr — 
U RE 
2 KN à. 
a x2+a° a? , “AN 
2 (+2) e 


= \ ze S Lo (ax) lee 
U 


NS VAR, us 
XD (Er) REV, (6 


k—1 


CH. 5] PROBLÈMES 331 


la dernière intégrale étant la fonction de répartition de la loi de Rayleigh géné- 
ralisée [24] 
Etudier le cas du critère du maximum de vraisemblance pour lequel on a 
Nat 
+ 
5.5. Montrer que la probabilité de détection d’un signal sinusoïdal d'ampli- 
tude constante 4, pour 20 Ÿ 1, lorsqu'on utilise l’algorithme (5.128’) et Le critère 


de Neumann-Pearson, peut être donnée par la formule 
: 1 N —1 4 2 Ao \ 2 
TESTS [= Vr=() 0], 6 
(=) 


où F (m, À) est une fonction gamma incomplète et le seuil X est donné par la 
probabilité de fausse alarme. 

5.6. Supposons que l'on vérifie l'hypothèse AH, que la réalisation zx (+), 
|t| < T appartient à un signal stochastique de fonction de corrélation Bo (u, v) 
contre l'alternative H, que cette réalisation appartient à un signal stochastique 
de fonction de corrélation B, (u, v). Les signaux sont répartis normalement. 
Montrer que le dispositif optimal de discrimination des deux signaux stochasti- 
ques mentionnés est le même que celui qui est donné sur la figure 5.3, et que 
la fonction de transition impulsionnelle k (u, v) d'un filtre linéaire de paramètres 
variables est donnée par l'équation intégrale suivante (cf. $ 3.5.7 ainsi que [21]): 


TT 


| | Bolt, u) Bio, v)h(u, v)dudr—Bilt, y)— Bolt, y) (7) 
TT 


Kn= 


[tI<T, IyI<T. 


5.7. Montrer que la probabilité d'erreur lors de la discrimination de 
m + À signaux orthogonaux déterministes sx (ft), k — 0, ..., m d'énergie 
égale E noyés dans un bruit blanc additif d’intensité NW, est égale à 


co x? ss 
Hi = | e ? Fm (+ #) dz. (8) 


5.8. Remplacer dans le problème 5.7. la condition d’orthogonalité par 
la condition 


T 
| mUs Da, 2<1. (9) 
Tr 


et montrer que dans ce cas on a 


co x° a 
Es 2E (2—X | 


Montrer que dans (9) le coefficient temporel À de corrélation mutuelle des 


signaux ne peut être inférieur à — pr (et, par conséquent, la valeur minimale 


possible de À, correspondant à la probabilité minimale d'erreur, est égale à — à. 


Chapitre 6 


SÉPARATION DES SIGNAUX NOYÉS DANS UN BRUIT 


6.1. ESTIMATIONS DU MAXIMUM DE VRAISEMBLANCE 
DES PARAMETRES INCONNUS D'UN SIGNAL 


6.1.1. Généralités. Nous allons maintenant passer à l’exposé 
de certaines questions relatives à la séparation des signaux noyés 
dans un bruit. Comme nous l’avons déjà noté au début du chapitre 
précédent, ce problème apparaît lorsqu’a priori on sait que le signal 
est présent dans le processus aléatoire observé qui représente une 
combinaison du signal et du bruit, mais que restent inconnues cer- 
taines caractéristiques du signal contenant sous la forme codée l’in- 
formation utile. Ces caractéristiques peuvent être des nombres incon- 
nus ou des fonctions inconnues du temps, des variables aléatoires 
ou des processus aléatoires. Le problème de la séparation consiste à 
trouver les procédures, optimales vis-à-vis des critères de qualité 
adoptés, de construction des estimations des caractéristiques mention- 
nées d’après les résultats des observations, qui peuvent se présenter 
sous la forme d’un échantillon de taille finie ou d’une réalisation 
continue à l'entrée du récepteur *). 

Tout comme dans le chapitre précédent, notre exposé se limite 
essentiellement au cas où les bruits sont additifs, normaux, station- 
naires, statistiquement indépendants du signal. Nous allons 
commencer par le processus somme d’un bruit E (£) de moyenne nulle 
et d’un signal déterministe s (4; À, @, 0, - .., dr) dépendant des 
para mètres inconnus À, ®, Ÿ1, . .., Êy. Puis nous étudierons les 
estimations de Bayes des paramètres aléatoires d’un signal quasi 
déterministe, connaissant leur densité de probabilité conjointe a 
priori. Dans les $$ 6.1 et 6.2 on trouvera une étude détaillée et l’in- 
terprétation radiotechnique des résultats mathématiques mention- 
nés au $ 3.6. 

6.1.2. Estimations simultanées de l'amplitude et de la phase 
d'un signal harmonique. Au $ 3.6.2. nous avons étudié en détail 
l'estimation de l'amplitude inconnue a d’un signal déterministe 
as (t) noyé dans un bruit normal additif. 

Nous y avons montré que l'estimation efficace non biaisée de 
l'amplitude inconnue s'obtient par intégration pondérée de la réali- 
sation z (t) du processus, les poids étant déterminés par la fonction 


*) Notons que la procédure de construction de l'estimation des caracté- 
ristiques du signal peut être réunie avec la détection du signal (pour plus de 
détail voir [11]). 
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de corrélation du bruit. Dans le cas d’un bruit blanc cette estimation 
s'obtient à la sortie d’un filtre adapté au signal s (4), et le rapport 
de la variance de l'estimation (minimale possible) au carré de l’am- 
plitude estimée est alors égal au rapport de la densité spectrale du 
bruit à l'énergie du signal [cf. (3.177)]. 

Nous allons maintenant étudier le cas simple de l'estimation 
simultanée de deux paramètres inconnus, de l'amplitude À et 
de la phase œ d’un signal harmonique déterministe s (t) = 
— À cos (ot — œ) de pulsation &w, connue, noyé dans un bruit nor- 
mal à bande étroite de fonction de corrélation B (t) donnée. En uti- 
lisant la représentation complexe de la réalisation observée et du 
signal 


z (t) = Rez (+) ect, (6.1) 
s(t; À, p) — ReAe”ifeiwot, (6.1°) 


on peut écrire le système d'équations du marimum de vraisemblance 
donnant les estimations correspondant à ce critère. En vertu de 
43.161”) pour V (t; À, p) = 4e” U(t)on a 


T T 
e-is | U ()EQe-ivet at — 4 | U'(e-iunt a+ 
TT -T 


T 
L eis KA ) z (t) eivot dt — À [ Utheïwtdt=0, (6.2) 
-T 


Fa T 
eo“ | U (#)z (ter ist di —eis | U(t)z(te“wtdt—0, (6.2) 


ST -T 


où U(t) est la solution de l'équation intégrale 
| BG YU (dy = ei, [11 <T. (6.3) 


En ajoutant (6.2) et (6.2°) on obtient l'équation suivante reliant À 
et p: 
T ms . 
| D'(pztjer ist de 
à + Tr 
Aeït — (6.4) 
Re [ U(t) era 
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A partir de (6.4) on peut obtenir directement les formules donnant 
l'estimation de l’amplitude et de la phase inconnues, on a 


T 
| S[Uuzte tal 
-T 


À = —— (6.5) 
Re | U(r) eff qe 
-T 
g=arctg ne, (6.5'} 
où 
= | U (1) s(t)e-ivot dé. (6.5”) 


T 
Si le bruit additif est un bruit blanc de densité spectrale W,, on 
a U (?) = 7. eve! et on obtient à partir de (6.4) 


T 
Ave | z(t) dt. (6.6) 


A partir de (6.6) on obtient l'estimation suivante pour la phase: 


T T 
Im | z(t)dt Î C(t)dt 
= Arc tg —5#——— = arc tg———, (6.7) 
Re ( =(4) dt | A(t) de 
CT CT 


où À (t) et C (t) sont les composantes en quadrature de la réalisation 
observée (cf. $ 5.2.2). Comme ces composantes sont des processus 
variant lentement par rapport à cos wot, on peut négliger les inté- 
grales des produits À (£) et C (t) par les fonctions haute fréquence 
cos ot pour w& > &o. L'’estimation (6.7) peut, suivant la réalisation 
observée zx (t), s’écrire comme suit: 

T 

Ÿ z(t)sin œt dt 
p — arc tg ——— : (6.8) 


\ x (1) cos opt dt 
-T 


Dans ce cas l'estimation de l'amplitude est égale à 
T 


T RE 
À + f-oa4V (| aoa) +(f co) (6.9) 


-T 
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ou, compte tenu de la remarque concernant (6.8), on trouve défini- 
tivement 


to en 


a=[(4{ coco) + (4 | z6smos a) ] . (6.10) 


En comparant (6.9), (6.10) et (5.67), (5.67') on voit que le dispo- 
sitif de détection d'un signal harmonique quasi déterministe noyé 
dans un bruit blanc peut être utilisé directement pour l'estimation 
de l’amplitude du signal, et ses différents éléments (intégrateur des 
RAT ds en quadratures) pour l'estimation de la phase [cf. (6.7) 
et (6.8)]. 

Nous allons maintenant étudier les propriétés essentielles des 
estimations de l'amplitude et de la phase d’un signal harmonique 
noyé dans un bruit blanc. Notons avant tout que les intégrales 


1 ; : à ne 
_ \ À (t) dtet 57 C' (t) dt sont des variables aléatoires indépen- 
TT -T 
dantes réparties suivant une loi normale de paramètres (4 COS , 
V . . ne = 
+) et (A sin ®, 5) respectivement. Ainsi, en vertu de (6.7) et 


(6.9) les estimations À et w sont le module et la phase d'un vecteur 
plan à composantes indépendantes normalement réparties et ayant 


les mêmes variances. Par conséquent, l’estimation À de l'amplitude À 
[cf. (6.9)] est répartie suivant une loi de Rayleigh généralisée de pa- 


ramètres (4, =) , qui pour dy; — oc tend asymptotiquement vers 


la loi normale. La moyenne de l'estimation À est égale à [cf. (3.74), 
tome Il 


_d? 


VU RG 


où dr est le rapport de l'énergie du signal à la densité spectrale du 
bruit, c’est-à-dire 


? A 
mi {A} ne dr 


FE (6.11) 
Ainsi, l'estimation du maximum de vraisemblance de l’amplitude 
se trouve biaisée. 
Quand dF-S 1 on a [cf. (3.77), tome I] 
: 1 
mi {À} — (14); (6.12) 


et, par conséquent, pour dr —+ oo, À est une estimation asymptoti- 
quement correcte (non biaisée) de l'amplitude du signal. 
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La variance de l'estimation À est égale à [cf. (3.75), tome I] 


M,{À}= 42 (1+ +) — m°{À). (6.13) 
T 
Quand dÿ © 1 on a Îcf. (3.78), tome I] 
= A? 1 
M: {à} 2 (1 ) | (6.14) 


J] est facile de calculer la densité de probabilité de l’estimation 


du maximum de vraisemblance de la phase @ (car cette estimation, 
comme nous l'avons noté ci-dessus, est la phase d’un vecteur de com- 
posantes normales et indépendantes), on a 


T 
[ Cdt 
@= arc 18 ——. (6.19) 
A (t) dt 
T 


_ En vertu de (3.81) du premier tome, la densité de probabilité de 
p est égale à 


LL 
æ- 


; df dF cos? (0-®) 
w,(9)= 5e : {1+ar V2rcos(8— qe 2 X 


X Fldrcos(8—œ)]}, [8—œpl<zx. (6.16) 


Comme w, (ÿ) est une fonction paire par rapport à Ÿ — œ, on en 
conclut que l'estimation du maximum de vraisemblance est une 
estimation non biaisée de la phase inconnue d’un signal harmonique 
noyé dans un bruit normal additif. 


La variance de l'estimation œ est égale à [cf. (3.93), tome I] 


Ma(q}= + an D (—1) & (6.17) 


n? ? 
n=1 


dT 2 
re d , 
Quand d$ Ÿ 1, on voit de (6.16) que la répartition de p tend asymp- 
totiquement vers une loi normale de moyenne nulle et de variance 
égale à [cf. (3.88), tome I] 


: 1 
Mag} re (6.18) 
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Ayant trouvé la matrice d’information relative aux paramètres 
estimés À et o, on peut montrer que les estimations À et q du maxi- 
mum de vraisemblance sont asymptotiquement simultanément effi- 
caces (cf. problème 6.3). 

Ainsi, conformément à la théorie générale (cf. $ 2.3.1) les esti- 
mations étudiées du maximum de vraisemblance de l'amplitude et de 
la phase d'un signal noyé dans un bruit blanc normal additif sont 
asymptotiquement non biaisées, simultanément efficaces et normales, 
l'estimation de la phase étant non biaisée (pour tout d- fini) et celle 
de l’amplitude biaisée. 

6.1.3. Estimations des paramètres d'un signal à bande étroite 
noyé dans un bruit blanc additif. Soit un signal à bande étroite 
st; À, p, V1, ..., Dar) = ARe a (t; D, . . ., Dar) eiTeivot, (6.19) 
caractérisé, en plus de l’amplitude À > 0 et de la phase œ, par M 
paramètres inconnus de l’enveloppe complexe. Il y a lieu de trouver 
les estimations du maximum de vraisemblance de ces paramètres 
d'après la réalisation du processus z (t) = Re z (t) eïof qui est un 
mélange additif du signal mentionné et d’un bruit blanc normal de 
densité spectrale AV:. 

En utilisant (5.54) (avec des changements de notations évidents) 
et compte tenu de 

V(=-a(; Dur <.., Or) er, 


on peut écrire comme suit le logarithme de la fonctionnelle du rapport 
de vraisemblance : 


T 
In L{z(t)| À, y, Due. dal= gp Ree-ie | a (4; 04... du) 2 (0 dt — 
L -T 
+ | la(t; 4 ..., Ow)[?dt. (6.20) 
No : ’ 17 , VX 


Supposons que les signaux soient normés de telle sorte que pour 
Ÿ,, ..., Vs quelconques on a 


T 

Î ° 

7 | La(t; Da ..., Var) l2dt—1. (6.21) 
-T 


La condition (6.21) signifie que l'énergie du signal est constante sur 
l’intervalle d'observation, en effet 
T 


E= | S°(t; À, p, Vs -.., On) di = 


2T 
T 
= 4" | [a(t; %1, ..., Du) [° cos* [oo + 
2T 


Harga(t; V1, ..., Om)— op] dt = AT, 
22—0682 
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où l'on a négligé l'intégrale des produits des fonctions variant lente- 
ment par la porteuse haute fréquence. 
Compte tenu de (6.21) on peut écrire (6.20) comme suit 


Inl[2(4)14, p, 01, ..., Ou — 


T 
1 ——_—_—_—_—_—_—_—_— 2 
2T 


ay ea moaf. (62 
-T 


Soient À, p, Ÿ:4, . .., D les estimations du maximum de vrai- 
semblance. Comme le premier terme de (6.22) est positif et ne dépend 
ni de À ni de @, le maximum du logarithme de la fonctionnelle du 
rapport de vraisemblance par rapport aux paramètres À et œ a lieu 
lorsque le second terme (négatif) est nul. D'où la relation entre les 
estimations 


T 
Âeïô — 7] a(t: D, ..., du) z(t)dt, (6.23) 
et É 
T 
À} | a(t; Ÿ Ÿyr) 3 (t) dt 6.23 
—|92T 9 Vis. M) , (6.23) 
2T 
TE 
Im \ a(t; Üy, ..., Dar) 2 (4) dt 
= arc tg — © | (6.23”) 


e \ a(t; Ÿ1, ss Ôaur) = (4) dt 
Notons que, comme on pouvait s’y attendre, pour a (t) = 1 la for- 


mule (6. 23) devient (6.6). 
Il s'agit maintenant de trouver le maximum absolu du premier 


terme de (6.22), c'est-à-dire de la fonction suivante des para mètres 


Ÿ:, . +. + Ÿ y : 


T 
1 ERA VENTE . 
QUO, da) = pps] | 2U du us) f. (6.24) 
ST 


On sait que dans le problème envisagé de la séparation du signal, 
la réalisation observée est la somme d’un signal et d’un bruit. L’en- 
veloppe complexe de cette réalisation est 


2 (8 = Aoalt: 0, ..., 0%) ei + 2 (6), (6.25) 


où z, ({) est un processus aléatoire normal stationnaire complexe à 
spectre uniforme, et les grandeurs A5, Po, 0, . . ., Üu sont les para- 
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mètres du signal qu'il y a lieu d'estimer d'après la réalisation 
x (t) = Re z (+) eïvot. 
En portant (6.25) dans (6.24) écrivons comme suit la fonction 
(01, 9 Ÿ nr) : 


2T A3 
Q (01, ….. dr) DE No [2 (01, és Ÿ sr) + 


+2Re Y (01, ..., Dar) X (D1, -.., Dar) evo + 
Su | 4 (Ô:, “ES Ÿ 1) |*], (6.26) 


avec les notations 


h (Bu, ..., Ou) =] W(01, ..., Dar) = 
T 
1 ——— , [2 : 
=|; | a(t; Ô, ...) dY) a (1; Ù1, ... Vy)dt : (6.26) 
T 
T 


x (Du -.. b)=-7x | a(t; On. Om)zalt)dt, (6.26") 
T 


k et W étant des fonctions déterministes, et % (0,, . .., Üx) une 

variable aléatoire normale de moyenne nulle et de variance égale à 
è 

l'inverse du rapport dr = Fe de l’énergie du signal à la densité 

spectrale du bruit. 


On appelle fonction d'incertitude pour des valeurs 0, . .., Ôy 
données la fonction 


T 
Y' (Ba du)= 7 | a(t: 0°, ..…, 0%) a: On ce. On) dt, (6.27) 
-T 


dépendant seulement de la forme de l'enveloppe complexe et de ses 
paramètres. En vertu de l'inégalité de Bouniakovski-Schwartz on a 
(cf. page 76, tome I) 


T 
LE (84, .…, d)1<[zr | lat; 0, ..., 091 [ dt x 
UT 


T 
| a 1/2 
x gp | le(t: D, ..., fra | 
2T 
ou, compte tenu de (6.21), 

LP (01, ..., du) | < 1. (6.27') 


Pour Ÿ; — ÿ?,i — 1, ..., M la fonction | Ÿ |atteint son maxi- 
mum égal à l’unitéfcf. (6.27)1. Ceci correspond au cas où la compo- 
sante de bruit dans (6.25) disparaît, c'est-à-dire quand dj; —+ co. 


22% 
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On a ainsi 
Y (0%, ..., du) = | Y (8%, ..., 0H) | = 1. (6.27”) 


La valeur moyenne prise sur l’ensemble des réalisations de la 
fonction Q étant 


ms {Q (91, -.., Oxr)} = dr [ 2 (94, +. Dar) ++. | 


et le premier terme entre crochets étant, en vertu de (6.27”), voisin 
de l'unité si 


di — Fe ÿ 1, (6.28) 


en nous limitant dans ce qui suit à la condition (6.28), cherchons le 
maximum absolu de la fonction Q en négligeant le dernier terme dans 
(6.26). Cette fonction peut en général avoir de nombreux maxima 
dans l’espace à M dimensions des paramètres incannus #;. Lorsque 
la réalisation ne contient pas de composante de bruit, comme nous 
l’avons déjà noté ci-dessus, cette fonction admet un maximum pour 
Ÿ, = Ô?, i — 1, ..., M. La présence du bruit donne un déplace- 
ment de ce maximum, mais si la condition (6.28) se trouve réalisée, 
on peut supposer ce déplacement petit, de sorte que les estimations 
Ÿ'; correspondant au maximum absolu de la fonction de vraisemblan- 
ce sont voisines des valeurs réelles des pee estimés Ÿ,. Ceci 
dit, développons la fonction Q (8:, ..., ®:r) de M variables en série 
de Taylor au voisinage du point 0;, ..., 03. Nous ne conserverons 
que les termes du second ordre de petitesse et nous négligerons le 


dernier terme dans (6.26). Au point (8;, ..., Ÿy) on a 
ôhk 
208 — 0, 
car en ce point la fonction h (0,, ..., Ÿ;;) est maximale. Compte 


tenu des remarques faites ci-dessus, on obtient à partir de (6.26) 
Q (01, ARTE ss 0) + 


) 2 D, cr Ÿ 
à (O4 — Q( Le w) 


R 


O1=07, ..., 0,0 


M 
x 92Q (04, ....Ÿ; |, 
À 2 dat 


= 


ou 
Q(9°, ..., 0u)=dr[1+2Rex (9%, ..., Or) evo]; 


0Q (D15 +, Dar) = 2d} Re ei®o x 
008 01= 0), …. 00H 


cs À; OY (Ou... On) 
x [use Ÿ y) +4 (01, .….) Vu) LA 55: | 


0101, ..., 0 04 
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En dérivant par rapport à 0, le-développement obtenu de la fonc- 
tion Q et égalant à zéro le résultat obtenu, on trouve le système sui- 
vant d'équations de vraisemblance : 


M 
à Qu; (8; — 05) = Cr, k=1, ..) M, (6.29) 
2= 
où l’on a employé les notations 
œ = - 00 6.29’) 
Ch OÙR d1=01, ..., 0 y ! 
__ 82Q (04, -.. du) 6.29" 
” 90% 08; O1=01. ..., dyy—0 | , 


Si le déterminant de la matrice Q composée d'éléments Q,; est diffé- 
rent de zéro, la matrice inverse Q”1 existe, ses éléments étant égaux 
au rapport des cofacteurs au déterminant de la matrice Q. Désignons 
par gs, les éléments de la matrice inverse, nous pouvons alors écrire 
comme suit la solution du système d'équations linéaires (6.29) par 


rapport à l'erreur: 
M 


b—0= lg, j=1,..., M, (6.30) 


où pour l'approximation adoptée [cf. (6.26) et (6.28)] 
T 
= 2drRe {ei | [at: 05, ..., 83) x 


T mes 
1 | 09e. D 
x (3 | a(t; Ü, RE D) Ce ON gs) + 
-T 
Ô t: 02, ..., 01 0 
FA _ D | 21 (0) dt. (6.30°) 


Les grandeurs f, et g,; sont aléatoires et dépendent de la compo- 
sante de bruit de la réalisation. Cependant, en négligeant toujours le 
dernier terme (quadratique par rapport à x) dans (6.26), il ne reste 
qu’à conserver dans (6.29”) pour Q.; l'apport de la composante déter- 
ministe de (6.26). Pour d Ÿÿ 1 il faut poser 


92h (1, -.., O1) 
Qu; = dr —— 2° "— (6.31) 
. 008 90) 01=07, ..., 010%" 
c’est-à-dire que les éléments de la matrice Q sont égaux au produit 
de la grandeur df et de la dérivée seconde mixte du carré du module 
de la fonction d'incertitude au point correspondant aux valeurs réel- 
les des paramètres estimés. 


342 SÉPARATION DES SIGNAUX NOYES DANS UN BRUIT (CH. 6 


Compte tenu de (6.31), on arrive à la conclusion que les erreurs 


Ÿ; — 9% [cf. (6.30)] sont les sommes pondérées (avec des poids égaux 
aux éléments de la matrice inverse de Q) des variables aléatoires 
normales L{, de moyennes nulles et de covariances égales à 


e 4 (D sos V': 
ms {Cnb;} = 247 Re ms À [ Ton 0. AT + 


° dY (01 ..., Our) o) Ts 94 (Üts cs Var) 
+ 4 (01, . dr) ( EE EE X (Vi M) + 


a OUR a: 
HR PE Pad |, 
mL 


Æ (6.32) 


Dans la formule (6.32) on a tenu compte du fait que pour l’enve- 


loppe complexe on a M1 {21 (£) z1 (&’)} = 0, quels que soient f£ et 
t (cf. (5. 37”). 


J1 s'ensuit tout d’abord qu'en vertu de la théorie générale, les 


estimations Ÿ, sont, pour d& ÿ 1, asymptotiquement normales. Les 
valeurs moyennes de ces estimations sont cf. (6.30)] 


m, {0} = 8, (6.33) 


c'est-à-dire que les estimations du maximum de vraisemblance sont, 
pour dr © 1, asymptotiquement non biaisées. Les éléments de la 
matrice de corrélation des erreurs sont 


M M 


m {(Üx — 0! NN (Ën — Ÿ? n)} = a? 2 QhiQ jnM {Gi Gi} (6.34) 


On peut trouver la covariance m, {&:t;} à partir de (6.32). En effet, 


— > 07 (0 ..., Var) 1 9W (01, ..., 0m) 
m4 {x Cr, ar BF) ET ee an} SR Ur 


et m3 {| x [°} = 1/47, donc 


2 0Y (04, ..., Our) JW (O1, ..., On) , 
mi {Gib;} = 2dÿr Re [Se Le M) 1 


2 (Ou... dau) OW (O1, ..., Dar) , OW (V1, ..., Du) 0W (01, ..., rs) 
+ 00; 06; + 0j oÙ; “ 


T sn 
1 da (t; Ên, ..., Ùn) dat; V1, ..., Vu) | 
en où y Je 


00; 0Ÿ; , LR 


(6.35) 
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De plus, en dérivant (6.21) et (6.27) par rapport à Ô; et ®; on trou- 
= (0) 


ve (compte tenu de ce que 


OW (04, ..., Üm) 
Re es 


ôh 
:|0,-e .. Lu =0M 

= (, 6.36 
si 


0,=0?, PSE 


Re {[ Étee On) W(01, ..., Vn) , 1 ques Dis .…, M) 


0:00 | ÈT 06 d 


x AU Open dar) dt | ,}=0 
J 0,—00, cs Dar = 0 


| lol: Me (6.36") 
En vertu de (6.26') on a 


2h (O4, ..., Om) om. [OP -.., One) 
Des Re] SEA + 


, “0 (Ô1, .. » D y) Dr ss. Ù ) 
HA Êrr b) SRI Cet |, (6.37) 


ce qui, compte Lenu de (6.36), donne 


9h (Ds, .…. Ÿ M) L 


L 
.. dy “On 


—2Re {[T QUE css dy) PO, ... Var) 


OÙ; OÙ; d 


DAS 
2T 


T 

Eee LP … Ÿ 1) 
OÙ; 

-T 


da (t; V1, -.., ÙÜn) \ m1 

— ©" —"T% dt . (6.37 
QU . 00%) EE, 

En utilisant (6.36) on peut écrire (6.35) comme suit: 

ms {bit} = 244 Re {[ — Que On) v 


0Ÿ ; 


X 


T 
OF (1, .., Vu) ie ft 0) rise Va) 
Cd TT 


2T 
da(t; y, ..., Ù'ar) | ” 
X ——"——— dt . (6.37 
9; Le 0041) ) 
En comparant (6.37) et (6.37) on obtient 


h (01, ..., Du) 
matt} = — dà | 6.38 
; }= AU 0Ÿj 0,00. .….: 0,50 M , 


ou, compte tenu de (6.31), 
Mi {Gibj} = — Qi. (6.38) 
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En portant (6.38”) dans (6.34) on trouve 
M M 
me (On — 0%) (Ün — 0n)} — 2 à GhiTin Qi (6.39) 
i=1 J— 


Mais comme g;;, sont les éléments de la matrice Q-! inverse de Q, 
l'égalité matricielle Q-1Q = I donne 

M 4, i=n, 
+ Gin Qij == { (9) ° 
J=1 » lÆN. 
Réunissant (6.39) et (6.39”) on obtient la formule définitive donnant 
un élément quelconque de la matrice de corrélation des erreurs 


ms {0x — 0?) (8, — 0L)} = — ur. (6.40) 


Ainsi, au signe près, les éléments de la matrice de corrélation des 
erreurs coincident avec les éléments de la matrice, inverse de Ja 
matrice composée de dérivées secondes mixtes du logarithme du rap- 
port de vraisemblance (ne différant des dérivées secondes mixtes du 
carré du module des fonctions d’incertitude que par le facteur df) 
au point correspondant aux valeurs réelles 9%, . . ., 0% des paramè- 
tres estimés. Par conséquent, la matrice de corrélation des erreurs 
coïncide avec la matrice, inverse de la matrice de Fisher [cf. (2.98)], 
c'est-à-dire que les estimations (6.30) sont simultanément efficaces 
(pour dr) © 1). 

6.1.4. Mesure du temps de retour d’un signal. Considérons un 
premier exemple illustrant la méthode du $ 6.1.3 de construction des 
estimations asymptotiques (pour dr —> oc) du maximum de vrai- 
semblance. Soit un signal à bande étroite de la forme 


s (ft, À, ®, t) = À Re a (t — +) ei9 eivwof, (6.41) 


où a (t) = u (t)ei®®, u (t) et D (t) étant des fonctions réelles repré- 
sentant la modulation d'amplitude et de phase du signal, et + peut 
être appelé, selon la terminologie adoptée en radar, temps de retour 
du signal. 

La fonction d'incertitude de ce signal est en vertu de (6.27) égale 


(6.39°)- 


T 
Pr) = 57 | a(t—t)at—Tdt, (6.42) 
-T 


où t, est la valeur réelle du paramètre t. En écrivant (6.42) comme 
it : 
P ; T-T% 
F(T—-v)=57 | a(t)a(t—T+To) dt, 


TT 


on remarque que la fonction d'incertitude coïncide, dans ce cas, avec 
la fonction de corrélation temporelle de l’enveloppe complexe du 
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signal (cf. $ 4.2, tome Î). La matrice Q contient maintenant un seul 
élément dat : [cf. (6.31) et (6.36)] 


_ Le F(t— To) f = 2 Re {#”(0)—[(#"(0)]*}. (6.43) 


Introduisons maintenant le spectre énergétique de l'enveloppe du 
signal Î[cf. (4.89), tome I] 


T=To 


T—To 


Fa (0) = +| | a(e-itd e (6.44) 
Par conséquent, ju 
Y(T— T0) — _. l F, (wo) eictt- 10) do, (6.45) 
d’où ci 
— 2" (0) = À l &F, (6) do = 0", (6.46) 
— 24" (0) = ( &°F, (0) do = «!, (6.47) 


où &w* et w2 sont la pulsation moyenne et le moment deux du spectre 
énergétique de l'enveloppe du signal, compte tenu de la normalisa- 
tion (6.21) (les notations employées sont celles du $ 8.6.1 du premier 
tome). 

Portons (6.46) et (6.47) dans (6.43), il vient 


Hiver) een 64 


où B° est la déviation quadratique moyenne (écrat de la moyenne) de 
la pulsation du spectre de l’enveloppe. On prend parfois la grandeur 
B pour mesure quantitative de la bande du spectre de l'enveloppe. 

Comme dans le cas envisagé la matrice inverse Q-1 ne contient 


les relations (6.30), (6.30°) et 


(6.46) donnent l'expression asymptotique suivante (pour di D 1) de 


l'estimation T du maximum de vraisemblance du temps de retour + 
du signal : 


i—T= 57 Re {cire TX jl FU 


qu'un seul élément égal à — = — 
T C1 


=) 


— ina (E—%) |2(1) à} . 


(6.49) 


Cette estimation est non biaisée, en vertu de (6.40) sa variance est 
égale à 


T=T. 


LEE 


(6.50) 
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Pour un spectre symétrique de l’enveloppe on a w* = 0 et l’ex- 
pression (6.49) peut alors s'écrire comme suit 


D ——— 
To + Re ['eive je 
T 


2T An dt = A (4) dt | ” (6.49") 


A partir de (6.23”) et (6.23”) on obtient également les estimations 
de l’amplitude et de la phase 


T 


à=|7 ETDE «)&|, (6.51) 
-T 
T 
Im | a({—7)z(t) dt 
P= AC tg — 7 —, (6.51') 


e | a(t—7)z(4) dt 
où l’on substitue t à partir de (6.49). 

6.1.5. Mesure simultanée du temps de retour et du déplacement 
de fréquence dû à l'effet Doppler. Notre second exemple illustrant 
la méthode exposée au $ 6.1.3 sera un signal à bande étroite de forme 
plus compliquée que (6.41), soit : 

st; ÀA,®,7t, Q) — À Rea(t—+r)e-iv ei {-T givott-7, (6.52) 


Comme dans (6.41), le paramètre + est ici le temps de retour du si- 
gnal et 


Q — O1 — Oo 
est le déplacement de fréquence dùü à l'effet Doppler. J1 y a lieu de 


trouver l'estimation simultanée des paramètres t et Q. 
En vertu de (6.27) la fonction d'incertitude *) du signal (6.52) est 


T 
W(T— To, RQ) = [ a({—Tto) a (£—7T) X 
=. T—7T 
x eiott- tite 9 y = @iAT- 0 | a(t)a(i—Tt+Tto)eit2-2ut dr. 
TT, 
(6.53) 
En introduisant le spectre de l’enveloppe du signal 
T 
fr (&) = | a (é)e-iut dt, 
2T 


*) La fonction Y (t, Q) de deux variables (du temps et de la pulsation) 
a été introduite par Woodward en qualité de fonction d'incertitude [2]. 
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on peut écrire comme suit la fonction d'incertitude: 


(ro, Q—Q) = er À | fr o) fr Co — QE Q) eivtr-0) Jo. 


(6.54) 


Les éléments de . matrice Q de dimension 2 X 2 sont 


Qu = m dE OT | Y (T— To, 62 — 9) to. 9 Q=—Q0) (6.55) 


Que = Qu = df _—— F(T— To, À — Go) fi cr, 2-00  (6.99°) 


0° e ” 
Q22 = dr [EE (T— To, 2 — Q) fire, 2—00: (6.55”) 

En vertu de (6.54) et . ” on a 
Qu = à TE | F(T— T0, 0) i=ro = — dTB*. (6.56) 


La grandeur Q:. est obtenue à partir de (6.53) 
e 0° 
Qoe — dr | LA (0, (2 — Q5) [a = 


T T 
(+ je C—%) Pa) 7 Je la(t—ro)[Pat]. (6.57) 


En introduisant d'une manière analogue à &* et w2 le temps moyen 
1* et le moment deux t*, du signal et en désignant comme suit la durée 
quadratique moyenne du signal : 


T T 
at} — (1) — 7 j* [a (£— To) [° di — ee fete") Fa)", 
_r T 
(6.58) 
on peut écrire (6.57) sous la forme 
Q22 ir dr a°. 
A partir de (6.53) et (6.54) on trouve également 
co T 
1 1 a 
Qu=d {7 | order |tlat—r)fat+ 
RÇ 2T 


T 
+57 | [a (£— to) a" (t— To) — a (1 — To) a” @—"o)] 2 dt | 


ou 
Qu = —dé (oti* — À%), (6.59) 
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où on a désigné par À* une grandeur sans dimension caractérisant la 
modulation de fréquence du signal *) 


T 
À* = Im _ | ta (t—To) a” (t—7To) dt. (6.60) 
2T 
Ainsi, la matrice Q est de la forme 
; — $° — ot LA 
Q=d7 — ot" LA — a? ” (6.61) 
La matrice inverse est facile à calculer. Calculons le déterminant de 
la matrice Q 
det Q = df [a°p° — (o*t* — À1*)°], (6.62) 


qui permet de trouver la matrice de corrélation des erreurs de mesure 
du temps de retour du signal et du déplacement de fréquence Doppler, 
soit : 

— a° O1 — }° 
o*t* — À* — $° 
Les variances des estimations du temps de retour et du déplacement 
Doppler sont situées sur la diagonale principale de la matrice Qi, 
les covariances de ces estimations (au signe près) se situant sur la 
diagonale collatérale [cf. (6.40)]. 

On peut simplifier quelque peu la formule (6.63) par un choix 
judicieux de l’origine des coordonnées annulant dans le plan temps- 
pulsation les grandeurs t* et w*. On a alors 

_—_# —_)2®# 
Q* LL Le À | 
dr (wÿt$ —À#2)? || — 2° 


En utilisant (6.30), (6.30”), (6.64) on trouve l’expression asy mpto- 
tique suivante (pour dr 1) des estimations simultanées du temps 
de retour et du déplacement Doppler 


Re {oise 


1 
TR 
Q 2 d? [x 2— (wsts —}s)2]° 


(6.63) 


(6.64) 


2 
GET 


«(RE 
2 1 
ett °®3TA * 


ss é da(t—T) 
x jB = e 


T — To — 


1 
2T A * 


— ia (To) | etats (+) dt} , (6.65) 
To 


— iuffa (E— To) | e-i2ot- 02 (1) dt} . (6.65) 


T=T 


2% 


T 
*) En effet, si a (t) = u(t)e®® , on a À* — 7" (t) dt. 
—T 
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Dans le cas général, en l'absence de modulation de fréquence du 
signal (A* — 0), les estimations du temps de retour et du déplace- 
ment Doppler deviennent non corrélées et leurs variances sont éga- 


les à [cf. (6.40) ainsi que (6.48)] 
. | 
M; {t} = di w$ ’ 


à | 1 
M = (6.65 


6.2. ESTIMATIONS DE BAYES DES PARAMEÊTRES 
ALÉATOIRES D'UN SIGNAL 


6.2.1. Estimations simultanées de l’amplitude et de Ia phase. 
Nous allons étudier les estimations des paramètres aléatoires d’un 
signal quasi déterministe d’après la réalisation observée du mélange 
additif de ce signal et d’un bruit normal stationnaire, de moyenne 
nulle et de fonction de corrélation B (+). 

Conformément à la théorie générale, pour une fonction de pertes 
quadratique (et parfois pour des conditions plus générales; cf. 
$ 3.6.4) les estimations de Bayes d’un ensemble de paramètres inter- 
dépendants d’un processus aléatoire sont les moyennes conditionnel- 
les de ces paramètres, lorsqu'on observe la réalisation z(£t) du pro- 
cessus sur un certain intervalle de temps [cf. (3.186)]. 

Au $ 3.6.3 nous avons étudié en détail l'estimation de Bayes de 
l'amplitude aléatoire a d’un signal quasi déterministe as (t) noyé 
dans un bruit normal additif. Nous avons montré que pour la répar- 
tition normale du paramètre l'estimation en question est la moyenne 
pondérée des deux grandeurs suivantes : de la moyenne a priori et de 
l'estimation du maximum de vraisemblance (étudiée au $ 3.6.2). 

Supposons maintenant que le signal soit un processus aléatoire 
quasi déterministe à bande étroite s ({) = a cos (wot — p) de pul- 
sation donnée &o, d'amplitude a et de phase œ aléatoires dont la 
densité de probabilité a priori conjointe w, (a, ) est donnée. Le 
bruit blanc est également à bande étroite. Ecrivons la réalisation 
x (t) et le signal s (£) sous la forme complexe 


z(t) = Rez(t) ei, s(t; a, p) = Reaer-iveïi®e!, (6.66) 


la fonctionnelle de vraisemblance s'écrit alors comme suit [cf. (3.78) 


et (5.54)]: 


T 
LL (le, gl=expRe | V(: a, zGe-io td] x 
-T 


T 
X exp [ — + Re | V ({; a, qhe-ivteir dt | , (6.67) 
=T 
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où V(t; a, œ) est la solution de l'équation intégrale 


T 

B,(t—u)V(u;a, p)du = ae-ivei®ot, 
Î 14 P) (6.67') 
UÈSE 


Introduisons la fonction U (f) — V (t; a, œ) aeï° et écrivons (6.67) 
et (6.67) comme suit: 


T 
l{z(t)| a, p] = exp [a Re ei? | U (t)z(t) e—icot dt | X 
ÈT 


X exp [ _< Re f U (t)e-ivot dt | = 
2T 


T 
=exp|a Î U (t)z(t)e-ivot dt | cos (® — Vr) | X 
x exp | —%- Re Î U(te-iwt at], (6.68) 
IT 
où 
T ————— A 
Im | U(t)ztt)e ot qe 
Pr = AC tg — >, (6.68) 
Re { U(t)z{t)e”%0t a 
LT 


U (t) étant la solution de l'équation intégrale 
à 
Î B:(—y)U (ay= eut, |11<T, (6.69) 
ST 


où B, (x) est l'enveloppe complexe de la fonction de corrélation du 
bruit (cf. (5.35”)]. 
Tout comme . $ 5.2.2, introduisons les notations 


T 
rh = 0 RACIAOHOE D e=ivott-u) dt dy, (6.70) 
T Éd T 
dé = 0! jU& eiuot gt — où | 26-00 @7Daa>0 (6.71) 
-T -T- 


où 0% est le carré moyen de l'amplitude. 
En utilisant (6.68) et les notations introduites on obtient les 
expressions suivantes pour les estimations de Bayes de l'amplitude 
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et de la phase d'un signal à bande étroite noyé dans un bruit additif 
normal à bande étroite: 


oO JT 
J ('aus(a, q)i[:(la, q'épda 
D D) 


oO TT 
F[ Sue, pilz(t)la, gldpda 
Tex 
œ 7 ad 
| | av 2(a, ge EA exp| T cos (p— Pr) | aq de 
D 
nr Cod , (6.72) 
Ï ju. pe exp | LE cos (p— br) | dp de 
RE 
= m {plz ()}=— 
— Le 
Î | qu (a, p)e “a exp| ©T cos (g == Pr) | dd 
ES 
_ œ x Cod d (6.73) 
| | uw, (a, pe 20% exp [- cos (p— br) | d da 
So 


Si le bruit additif est un bruit blanc e intensité V,, la solution de 
l'équation intégrale (6.69) est U (4) — pret, les grandeurs r- et 


dr des ue (6.70) et (6. “ sont ne à 
1 


T _ 
272 
= | faoal-3e {away (co) J, (67%) 


où À (é) et C (t) sont les composantes en quadrature de la réalisation 
observée (cf. $ 5.2.3); et 


=. (6.74) 


Si la phase est uniformément répartie et ne dépend pas de l’am- 
plitude on a 


9 9 


: _ 
\ Zu’ (Oat) Lo (rrx) € * dx 
Q = Ca PRE _- 9 L (6.79) 
d'rx* 


\ w4 (Oax) Lo (rrr) e * dr 
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d+ à 


| — Î w4 (Oaz) e à ( | pexp{[rrz cos (®—w#r)] dy) dx 
0 
00 x"d' 


| w1 (Car) To (rrx) ee 2 dr 


où w, (x) est la densité de probabilité de l’amplitude. 

Pour un signal intense on peut utiliser la formule asymptotique 
de la fonction de Bessel et écrire comme suit l'estimation de Bayes 
(6.75) de l'amplitude du signal: 


2,9 


© | 
dr: 

_ wi (Oax) EXD (—— +rre) dr 

4 Vz : 


O0 


| V'zui (0x) exp Eee (2-2) ]e 


d= 
— PR . 
1 T TT 2 
j ES W'} (Oaz) exp [ T9 (7) | dx 


d° 
Pour d; © 1 la fonction = exp [+ (z— F >| est voisine 


d’une fonction delta. C’est pourquoi si la densité w, (o,x,) est conti- 
7 PR : : 
nue au voisinage du point zx = É et n’est pas nulle en ce point, on 


obtient, compte tenu des propriétés de filtrage des fonctions 
delta (cf. annexe III), la formule asymptotique suivante 


T 
| Suwze-istæ] 
ST 


ME ENS FReETs>-v (6.76) 
[ [8 (—y)U (y) U(t) dy dt 
TT 


D'une manière analogue, on peut obtenir la formule asympto- 
tique de l'estimation de la phase pour dr > 1: 
T 
Im | U()z(4)e%0t de 
m SC Ÿr = arc tg 5} . (6.76") 
Re | U(t}z (4) eut de 
eT 


Ainsi, les estimations de Bayes de l’amplitude et de la phase 
coincident avec les estimations du maximum de vraisemblance de 


6.2] ESTIMATIONS DE BAYES DES PARAMÊTRES ALÉATOIRES 353 


ces paramètres [cf. (6.5) et (6.5”)] et donc 


T 
= Â ; 
| z ()dt|, (6.76”) 
2T 


T 
Im | z(t)dt 
2T 
T 
Ÿ z(t) dt 
2T 
tout comme dans les formules (6.9) et (6.7). 
6.2.2. Estimations simultanées d’un nombre fini de paramètres 
d'un signal quasi déterministe. Considérons le problème du calcul 
des estimations simultanées de Bayes des paramètres d’un signal 
quasi déterministe sous sa forme plus générale (cf. $ 3.6.6). Soit un 
signal de forme donnée dépendant de m paramètres aléatoires 


m 


s(t; J ..., Om) = 2 Dis; (t), (6.77) 
2= 


p— arctg | (6.76") 


Re 


où s, (t) sont des fonctions données, et Ÿ,; des paramètres aléatoires 
dont la densité de probabilité est égale à w,, (Ÿ,, . .., 8). Sur 
l'intervalle (—T, T) on observe la réalisation zx (t) de la somme de 
st; d,, ..., Üm) et d’un processus aléatoire normal de moyenne 
nulle et de fonction de corrélation B (u, v) donnée. Il y a lieu de trou- 
ver les estimations de Bayes des paramètres Ÿ,, . . ., Üm. 

Le logarithme de la fonctionnelle du rapport de vraisemblance 
pour Ÿ,, ..., Ü donnés est en vertu de (3.157) égal à 


Inl{xz(t)| 01, ..., On] = 

= ve: di, ..… On) [z()— 55 (8; 84, . Om) | dt, (6.78) 
où V He, - + ++ Vm) St la solution de l’équation intégrale 
Bt;u)}V(u; 01, ..., Om)du—=s(t; V1, -.., Om), [EI LT. (6.78) 
2T 


Portons (6.77) dans (6.78”), cette dernière équation se trouve alors 
remplacée par le système d'équations 


T 
| BG, u) Vi(u)du =: (E, IST, i=1,...,m, (6.79) 
IT 

avec 


V (4: 04, ..., Om) = à 07; (4). (6.80) 
= 


23—0682 
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L'expression (6.78) pere DR s'écrire comme suit 


Inl{z(t)| 9, => (20v;wa- 


2T 


+ D Yo. o[v (é) s5 (0) de 


i=1 }—=1 


ou, en utilisant les notations (3.206), (3.206), 
In lf{z(t)|0:, 


cu date Den D Didi. (6.81) 
j=1 Fo J=1 


Compte tenu de (3.186), écrivons l'expression générale des esti- 
mations de Bayes des paramètres pour une fonction de pertes quadra- 
tique, soit : 


dm (ou) Î ae { Drm (Ÿ1, - --. o)exp (S Ÿ Tr; — 
— 00 J=1 


— 9 à > ddsru) dŸ:. + dd | X 
x[ { 7 f Um (V1, --.. 


Um) EXP (S Ÿ tr; — 


j=1 


5 D D 88715) d8 … dm | 


? 


Le (6.82) 
ou sous forme vectorielle 


| Ôx (0) exp (oxr—+ dsrt) dÿ 


ê = 2 (6.82) 
| w (0) exp (o'xr— 0srt) dô 
Go 
Dans le cas d'un bruit additif blanc on a V;,(t) = _. Vs Si (£) et 
T 
Î 
215 = = [xs (at, (6.83) 
T 


T 


se = | ss (4) sy(t)dt. (6.84) 
2T 
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Si dans (6.77) les fonctions s; (t),.j = 1, . .., m sont orthogona- 
les sur l'intervalle (—T, T),ona 


E, j2; 
u=À 02 | (6.85) 
0, is j, 
où 
T 
E;= | st) dt (6.86) 
-T 


est l’énergie du signal s; (t) sur l'intervalle d'observation. Dans ce 
cas particulier, la formule (6.82) se simplifie et on a: 


ü=[ . f Opum (04, er Om) X 


X exp = x 3e, (8; — Er )] PORN 20% ] * 
2 


x[ us l Um (91, -.., Om) X 


x exp| —7- > E; (0, )" | dû .… dm | + (6.87) 


J=1 


Pour Es 00, j —1...., m (signal intense), 
No 


RL es [2 28; (o:— NE ge 1e EL ILs (9: Me Ed 
= 


En utilisant la propriété de filtrage des ue delta, on ob- 
« - E; 


tient à partir de (6.87), pour Ns 7 © les estimations asymptoti- 
ques de Bayes des paramètres d’un signal intense 
T 
Ÿ z(t)sn (#) dt 
Q TTRk  __-T FER à 
US Ne ne E=";:::: M: (6.SS) 


\ s? (4) dt 


L'estimation v, obtenue coïncide avec l'estimation du maximum de 
vraisemblance du paramètre Ÿ, du signal Ôzs4 (t) (cf. (3.168)]. 
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Il a été montré [13] que dans le cas général aussi, on peut à par- 
tir de (6.82), pour un signal intense, obtenir la formule suivante *) 


Ô — xrS7!, (6.89) 


c'est-à-dire que l'estimation de Bayes tend vers l'estimation du ma- 
ximum de vraisemblance [cf. (3.208)]. La formule (6.88) est évidem- 
ment un cas particulier de (6.89) lorsque le bruit est blanc et les 
fonctions s; (£) sont orthogonales. 

6.2.3. Estimation d'un signal aléatoire stationnaire noyé dans 
un bruit. Soit un signal à bande étroite correspondant à un processus 
aléatoire de moyenne nulle et de fonction de corrélation B, (t). 
Exprimons ce signal en fonction de l'enveloppe complexe (cf. 


$ 5.2.2) 
s (£) = Re z, (4) ei! (6.90) 


et utilisons le développement orthogonal de cette enveloppe (cf. 


(3.36)] 


(= D DU LIT, (6.91) 


h=1 


où À, et æ, (t) sont les nombres caractéristiques et les fonctions pro- 
pres de l'équation intégrale linéaire homogène 
T 
p(=A | B,(—y)p(y) dy, (6.92) 
=T 
et B..(t) est l'enveloppe complexe de la fonction de corrélation du 
signal. Les coordonnées Ÿ, de l’enveloppe complexe du signal 
T 
h=Vh [ap Ud,  k=1,2,..., (6.92’) 
T 
ne sont pas corrélées. La loi de répartition des Ÿ, étant normale, 
la partie réelle &; et la partie imaginaire 4, de 8, = ax + ipy 
sont également normales, de plus Îcf. (5.38) à (5.38”)] 


mi {an} — m4 {Br} — m, {abri} = 0 (6.93) 

pour tous k et {, 
mi {ana} = M; {BrBi} — 0, k Æ l, (6.93) 
ms {ai} = mu (fi) =. (6.93") 


*) Les estimations de Bayes ont ces propriétés asymptotiques non seulement 
pour une fonction de pertes quadratique, mais également pour les fonctions 
e pertes de forme plus générale [14]. 
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Le problème consiste à trouver les estimations de Bayes des coor- 
données Ÿ; (ou «, et B:), lorsque sur l’intervalle de temps (—T, T) 
on observe la réalisation x (t) de la somme du signal s (t) et d’un bruit 
normal stationnaire à bande étroite de fonction de corrélation B (x). 

En ne conservant que les m premiers termes du développement 
(6.91) et en introduisant l’enveloppe complexe de la réalisation 
z (t) = Re z (t) eï!, on peut écrire la fonctionnelle du rapport de 
vraisemblance pour la réalisation z (t), ayant fixé ®:, ..., Ÿ, 
[cf. (5.54)] 


T 
L{z(t)| 84, .…, 8m] = exp | Re (ve; D, ..… Om) 20 dt | x 
=T 


T 
De = [VE Bic Om)qn(t)dt|, (6.94) 
kRT 


où V'(£&, 01, ..., 0) est la solution de l’équation intégrale li- 
néaire non homogène suivante: 


T m 
Î B.(-—u) Vu; 8, ..., 8) du Di 8x ne LIST. (6.94) 
2T k=1 Le 


On peut remplacer l'équation (6.94) par le système d’équations sui- 
vant [cf. (6.79)]: 


T 
| B: (—u) Vi (u) du = HO sl<T, (6.95) 
A Va 
avec 
V'(u; 04, ..., Üm)= D OV; (1). (6.96) 
j=1 


Portons (6.96) dans (6.94) et écrivons comme suit la fonctionnelle du 
rapport de vraisemblance 


L[z(4)1 0, du=exp {Re Ÿ ÿ, Îv CHOFAE 


j=1 


qi (t) dt | (6.97) 


ad] Ent din DE IUT 
JT 


1 2-=1 


AVE 
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Introduisons maintenant les notations 


T 

tr; = Re { V,(0 2) dt, (6.98) 
T 
T 

Yry=lm | V;()2@ dt, (6.98) 
eT 
T 

Sri, == Re | V;Q) qi () dt, (6.99) 
2T 
T 

Lri; = Im RAT? (t) dt. (6.99") 
—T 


On a alors à partir de (6.97) 


l[z (£) | œ1, Bien, Bm) = exp {> (œ;xr; —Bjyrs) — 


j=1 


RS 
2 


Eur [Cane +BaB5) Say — (Bac; —,) lrusl}e (6.100) 


. Ibas 
UE 


ERP k = 1, mt. 
En vertu de (6. 93) à à (6. 93"), 2m coordonnées du signal &,, B;, . .. 
+ Am.Pm forment un ensemble de 2 m variables aléatoires norma- 
les indépendantes de moyennesinulles et de variances égales à 1/2. 
Ainsi 
y — Z GitBh) 
om (œs, Ba ee) Am; Bm) — Br . (6.101) 


(Ra) 


En portant (6.100) et (6.101) dans (6.82) nous obtenons les esti- 
mations de Bayes des coordonnées du signal s (t) [cf. (6.90)] pour 
une fonction de pertes quadratique 


Œh = _—_ | “és J hr EXP { À (œi -1- 5) F2 (œyxr; —Bjyr;) — 


—20 


m LU 


+ > > TE [(œi @j + BiB;) sri5 — (Bios — œiB;) Hi} X 


i=1 7—1 


x deu dB, .… daim dôm, (6.102) 
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ji | . { Brexp {— 5 (a+ B5) + 
— 00 — 0 J=1 
Æ y trs — Br) — + > >» Æ [(œia; + BiBs) Sri; — 
j=1 i1 j:1 : 
— (Bio; — af) Lri 1} day dB .. daim dBm, (6.102) 
Km = | — | exp{—Y (ai + 85) + D (arr; —Biyr;) — 
— 00 — 00 j=1 j=1 


+ D > — Eœic + BiB;) sri5 — (Bic; — œif;) bris) | X 


Be 


i=1 j— 
x deu dB, ... dm dBm. (6.103) 


Si le bruit additif est un bruit blanc, en vertu de (6.95) on a 


Ve (= où i=1, ..., m, (6.104) 


où !V, est la densité spectrale du bruit. On obtient alors à partir de 
(6.98) et (6.98) 


Er VE ——— Re IUCELE (6.105) 
1 s __—. 
Vi = Î p; (6) =U) dt, (6.105’) 


et à partir de (6.99), (6.99”), compte tenu du fait que les fonctions 
propres sur l'intervalle d'observation (—T, T) sont orthogonales et 


normées, 
T 


L LE FRE 
ee [1e 0 di — (6.106) 


1 
Sri =0, is ÿ, lri = 0 pour tous à et j.  (6.106') 


Dans ce cas les expressions (6.102) à (6.103) se simplifient consi- 
dérablement et les variables d'intégration se séparent. Calculons 
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d’abord K,, on a: 


mn O0 a 


Km = Il | exp (—-d+asr x) da; x 


j=1 —0o 


X II ( EXP (— 85 + Bars — ax } dp; — 


ee don. 
Ie HS) (407 
AT AjNo : (2+ AjNo | 


Il est facile de voir que dans le cas particulier d’un bruit blanc, les 
variables d'intégration se séparant dans (6.102), l'expression de 


l'estimation «, peut alors s'’écrire comme suit: 


1 
2 sa 2 + ——— 
Ko —TTk AxN 
Ah — ra 1 exp RE — | Œ exp le D 
é 2(2+- V né : 
*k:VO 


X si  . | an (6.108) 
2e 2RkNo 

où XA-1 est obtenu à partir de (6.107) en y omettant un facteur 

V 2x (2 (2 - - x) /2 exp es |: Enfin, en calculant l'in- 


tégrale G. 108) et après de évidentes, on obtient 
Gn=— "Th, k=1,..., m. (6.109) 
De même 
Pr=—Th—, k=1,...,m. (6.109) 
ET 


Compte tenu de (6.98), (6.98”) et (6.104) on a à partir de (6.109) 
et (6.109° : 


T 
bi — (vo ba __Vh 
-T 


ne | (4)2G)dt (6.110) 


Li 


Dre 


puis en portant (6.110) dans (6.91) on obtient l'estimation de l’en- 
veloppe complexe du signal 
mm T 


is (=lim D — 5 — —— Pa (#) \e (u)z(u)du. (6.111) 


ni-»00 
li — 
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En introduisant la fonction 


…: C PA (£) Pr (ue) 
h (+, u) —= > ALNoR ; (6.112) 
Rk={ 


on peut écrire (6.111) comme suit 
T 
Zs(t)= | A4, u)z(u)du. (6.113) 
=T 


ce qui permet d'obtenir l'estimation de Bayes du signal 
T 


S(4)= Re 3 (/)eivet=Reeïont | L(1, u)z(ujdu, |4|<T. (6.114) 


-T 


Dans l’expression (6.114) la fonction À (£, u) est déterminée par 
des données a priori sur la fonction de corrélation du signal et la 
densilé spectrale du bruit, et z (u) est l'enveloppe complexe de la 
réalisation sur l'intervalle d'observation. 

6.2.4. Estimations des processus aléatoires modulant une por- 
teuse haute fréquence noyés dans un bruit blanc additif. Supposons 
maintenant que le signal s (t) soit une porteuse harmonique de pulsa- 
tion wo, modulée en amplitude et en phase (ou en fréquence) par les 
processus aléatoires a (t) et ÿ (t). Le problème consiste à estimer les 
valeurs de ces processus de modulation, d’après la réalisation de la 
somme du signal et d’un bruit normal additif observée sur l’inter- 
valle (—T, T). Pour ne pas encombrer l’exposé nous allons nous limi- 
ter à l’étude de deux cas particuliers où le signal est une porteuse 
modulée en amplitude ou en phase, bien que la méthode exposée 
puisse être utilisée pour des cas plus généraux. 

Le cas d’un signal modulé en amplitude peut être ramené au 
problème étudié au $ 6.2.2. En effet, posons 


s () = a (£) cos (wot + Po). (6.115) 


En utilisant le développement orthogonal de la fonction de modu- 
lation 


Vi 


où À, et px (ë) sont les nombres caractéristiques et les fonctions pro- 
pres de l’équation intégrale linéaire 


a (£) — ÿ ah gx U) 
k=—1 


T 
pO=R [Bt-npwdy, 11<T, 
RE À 
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on peut écrire s (£) comme une somme analogue à (6.77), soit: 


s (t) = à ajsj(£), (6.116) 
j= 1 
avec 
sj(t) = cos (@ot + Po). (6.116") 


Le problème se réduit au calcul de l'estimation simultanée des coor- 
données a, par la méthode du $ 6.2.2. 

Nous allons maintenant étudier plus en détail le cas où la porteu- 
se À, cos ot est modulée en phase par le processus aléatoire normal 
stationnaire w (£{), de moyenne nulle, dont la fonction de corrélation 
By (t) varie lentement par rapport à cos wot, le bruit normal addi- 
tif étant un bruit blanc de densité spectrale V, (et ne dépend pas du 
signal). 

En utilisant le développement orthogonal de la fonction de modu- 
lation sur l’intervalle d'observation 


v0=Z ES = _[tI< (6.117) 


où À, et 4 (4) sont les nombres caractéristiques et les fonctions pro- 
pres de l’équation intégrale linéaire 


T 
p()= À | B (—y)q{y) dy, [tI<T, (6.117’) 
-T 


on peut alors écrire comme suit le signal qui est une porteuse modulée 
en phase : 


s (t) — A, cos [ Got + Apr ÿ VŸk Le |, (6.118) 
k=—1} î 


où}, sont des variables aléatoires normales indépendantes, de moyen- 
nes nulles et de variances unité. La constante k,» donne la pente 
de la caractéristique linéaire du modulateur de phase. Supposant 
que le bruit normal additif soit blanc. on peut écrire comme suit 
le logarithme de la fonctionnelle du rapport de vraisemblance [cf. 
(6. 78) et (6.78”)], la réalisation x (t) étant observée sur l'intervalle 
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T 
Inl{z(t)l hs... Ÿms …J=+ DE 
À T 
x[24@—+5(4]d = (ETUE 


oo T 
t 1 ë 
x cos [ oo: + kpn D Pr LE | dx | s° (t) dt, 
j=1 à 


d’où, en négligeant dans le dernier terme l'intégrale de la fonction 
rapidement variable cos [2w0t + 2 (t)lona 


T 
Inl[z(t)| Vi, -.., Yms …J=$e [20 x 


-T 


oo | : 
X cos [ Go: + Kph ÿ LU ve | dt — Fr . (6.119) 
j=1 


On peut alors écrire comme suit les estimations de Bayes des coor- 
données #, de la fonction de modulation pour une fonction de per- 
tes quadratique *): 


00 o0 2 T 
5 = Ÿ) À 
x[ | He fe i=1 exp CREDE 


© 00 T 


Ù | 


X cos [ou+in 3 DE = |dt} dy... dfm... |". (6.120) 


J 

L'analyse de l'expression (6.120) n'est pes possible dans le cas géné- 
s) 

ral. Considérons d’abord le cas où —— Se + € 1 (signal faible). Dans 


*) Dans (6. 120) et dans la suite, il fallait prendre un nombre fini V de 
variables d'intégration 1; et aprés intégration passer à Ja limite pour Ÿ —+ oo. 
L'écriture simplifiée utilisée n'influe pas sur le résultat définitif. 
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Ld e Ld e » 2T A: 2 
ce cas on peut négliger les termes d'ordres supérieurs à ( Ne } k 


En développant l’exponentielle en série par rapport à A et ne 
conservant que les deux premiers termes on a 


A {4 1+ CE 


X os [tk D Ver nE] a) di... dm — X 


co co E 3 T 
UN ff... À 
x[ fe Le + 20» 
— © — 00 -T 


X cos | Got + kph D) V; — ee 3 = |at} dy ... dm | 


Comme pour x petit 


{ : 
TEz 1—z+0 (zx) 
et 

+ IVe 

| .….. | Ÿre "j=i di ... dm .--. =0, 

Le ANT = 
on obtient à partir de (6.120) aux termes de l’ordre de © (5 RE  ) 
_. 

T oo oo co ; 

10) à : —— 

np o (je Sell V7 X 


x exp {5 [45 2x0 DE 4} dis .. dm ..…) dt, 


puis, en calculant l'intégrale sur les variables 1}; on à 


: . & 
7: Aok koh 2 À 
— PL Pa (£) x (t)e CIE 7 cos Got dt. (6.121) 
NoVin 
Compte tenu de cf. (3.24”)] 
à T0 
D 2 B,(0)= 0%, (6.122) 


14 
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où 0% est la variance du processus de modulation, on obtient à par- 
tir de (6.121) 


Ÿr = A ee ou Pa (4) x (£) cos ot dt. (6.123) 


En portant (6.123) dans (6.117) et utilisant (3.24), on obtient l'esti- 
mation de Bayes du processus de modulation 


su a 


T 
Ÿ (0) = e*PhoË Î Be (—u) x (u) cos ou du, (IST. (6.124) 
-T 


D'où 
ms {b ()} = 0. (6.125) 


Cherchons la fonction de corrélation de l'estimation % (t). Comme le 
signal et le bruit sont indépendants, on a 


B; (u, v) — B, (u, v) La Noù (v LES u), 
par conséquent, 


B; (u, v)= mm: {b (u) Ÿ (v)} = 


ee | 


= Ain e2*Pn0% | ETRELTEPE 


Tr 


X [B: (x, y) + Noô (x — y)] cos wor cos woy dx dy. 


En négligeant comme plus haut pour « > ©, les intégrales des 
composantes contenant cos wf et donc la fonction de corrélation 
B, (x, y) de la porteuse modulée qui est proportionnelle aux fonctions 
à variation rapide (cf. $ 12.1.2, tome I), on obtient 


AËk5h _2k2 
By (u, v)= ee e?*Ph0ÿ IT y)Be(v—y)dy. (6.126) 


Pour la variance de l'estimation on a 


: T 
A: = op? 2 ä 
où ()= B; (é, 1) = AE en | Bi(u—y)dy (6.127) 
-T 
ou 


« (4) . 
Ÿ Aëk5h0% » ; 
+] =, € ZAPhOŸ [re (x) dx, (6.127’) 
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où R% (t) est le coefficient de corrélation du processus de modula- 
tion. Pour 7? + œona 


Ga) 2  Akpoë ox2.02 À De 
HT -$ | Rÿ (0) dr. (6.128) 
0 
Problèmes 


6.1. Montrer que si l'amplitude d’un signal à bande étroite est répartie 
suivant la loi de Rayleigh 


2  o2 
m(a=e 6, a>0, 
Oa 
la phase étant indépendante de l’amplitude et uniformément répartie, pour 
une fonction de pertes quadratique l’estimation de Bayes de l'amplitude de ce 
signal noyé dans un bruit normal additif est 


2 1 { r2 
di ren to un à Or D 
où 1#, est la fonction hypergéométrique (cf. annexe V), les grandeurs r7 et d+ 
étant données par (6.70) et (6.71). 
6.2. Résoudre le problème du $ 6.2.2 en supposant que les résultats des 

observations sont représentés non pas par la réalisation x (4) = s(t; Ü1, . .. 

…. Üm) + E () mais par un échantillon discret x — (x, ..., rx) où x; = 
= x (t;), t; étant les instants appartenant à l'intervalle d'observation (—T, T). 
Montrer que les estimations de Bayes des paramètres Ô, peuvent s’écrire sous 
forme vectorielle comme suit: 


iN 
[ Êw (Ÿ) CXP { TStrK Qx (x —sŸ, k) } dû 
. GG? 
À = —_———————————————————————————— : 2) 
w (0)ex S LR k \ dô 
OxPA TIR Ai 
Gé 


où G# est le domaine de l’espace des paramètres où la densité de probabilité 
w (0) est donnée: s est une matrice de dimension # X m dont les colonnes sont 
linéairement indépendantes (au sens algébrique). La j-ième colonne de la matrice 


est un vecteur de composantes s; (ti), . .., sj (tn), j — 1, ..., m et k 
la matrice de corrélation normée de la composante aléatoire E (t): 
NK 
— 91 
— tr K ? (7) 
tr K étant la trace de la matrice de corrélation K, 
Qu (x—sû.k)—(x—s0)" k71(x—sÛ). (3) 


6.3. Trouver les formules suivantes pour les éléments de la matrice d'infor- 
mation des estimations de l'amplitude et de la phase d’un signal à bande étroite 
noyé dans un bruit blanc additif: 


IT (4, q)=m: (rite w14 «1) } = 


T 
167? { 
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+ ( f C eat) sin ç—4|} es (4) 


-T 
IF” (4, q)= m1 (+ Inl{z(t)|4, 1) } = 


fer Jo à) sin = 


(+ [ cwa) csp]"} = _ =4d}, (5) 
ST 


m4 on 0 Le 

| IT (4, q)=m; \ 34 Inl[z(t)14, q] 2œ Inl{z(t)14, gl; =0, (6) 
où _ 

dT — N (6’) 


Trouver à partir de (4)-(6) les éléments de la matrice inverse de la matrice 
d’information 


de 1, | - , 7 
4ädT 9 

y 22 À, = ® | 8 
PAU (8) 


YT (4, g)=0, (9) 


et montrer que pour dr — oo les estimations du maximum de vraisemblance 
de l'amplitude et de la phase sont asymptotiquement efficaces. 

6.4. Montrer que pour un signal à bande étroite à enveloppe gaussienne 
u (t)} = e7%"*, modulé linéairement en fréquence suivant la loi w (4) — wo + Àt, 
c'est-à-dire pour un signal dont l'enveloppe complexe normée est de la forme 


4AT  _{(a2-inyt2 
a (t)=——— 0 * aT D 4, (10 
(£) V'2x > ) 
le module de la fonction d'incertitude étant égal à 


a? 


m2r? 


IY(mi=e ?  , (14) 
où m est le coefficient de compression donné par la formule 
7.2 


(en l'absence de modulation de fréquence m — 1). 
En utilisant (11) montrer que la variance de l'estimation du temps de 


retour d’un signal, noyé dans un bruit blanc additif, lorsque le rapport dT 
de l'énergie du signal à la densité spectrale du bruit est grand, est égale à 


M{i= ro (13) 


6.5. Montrer que si l’on mesure simultanément le temps de retour et le 
déplacement Doppler, le module de la fonction d'incertitude bidimensionnelle 
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pour un signal de la forme (10) du problème 6.4 est égal à 


+ (armee oct) 
[P(r Q)]=e ” sd Fe (14) 

En utilisant (14) trouver les formules suivantes pour les variances des 
estimations ‘du temps de retour et du déplacement Doppler ainsi que pour le 
coefficient de corrélation de ces estimations, lorsque le rapport de l'énergie 
du signal à la densité spectrale du bruit blanc d7r ÿ 1: 


= 1 
M: {t} EF ue ai (15) 
dra 
MaÔy= IST, (16) 
dr 


= 1-2. (17) 


6.6. Supposons que l’amplitude et la phase d’un signal quasi déterministe 
à bande étroite [de la forme (6.66)] soient indépendantes, l'amplitude ayant 
une répartition a priori de Rayleigh, ct la phase une répartition a priori uniforme. 
Démontrer que l'estimation de Bayes de l'amplitude est égale à 


pr 


0 F Pr Pr\ Pr, (PT\1. 74 
sy 5[(1+T) (+)++4()]e ‘. 
Vitat 
où 
Pr = ——— ; (19) 
Vita} 
les grandeurs Tr et dr étant données par les formules (6.70) et (6.71). 
Montrer que pour df + œ on a 
a —_ = TT: (20) 


df: 


. Vérifier que pour un bruit blanc l'estimation (20) coïncide avec l’estima- 
tion donnée par la formule (6.76). 


Chapitre 7 


ÉLÉMENTS DE LA THÉORIE 
DE CLASSIFICATION AVEC APPRENTISSAGE 


7.1. PROBLÈME DE LA CLASSIFICATION AVEC APPRENTISSAGE 


Le problème de la classification des résultats des observations a 
été formulé au début du présent volume comme le problème du choix, 


dans un ensemble de décisions Yo, . . -; Ym» de la décision, d'appar- 

tenance d’un ensemble de résultats d'observations x;, ..., x, à 

des m + 1 répartitions données W, (x,, ..., x, | sx), 
= m 


L'utilisation de tel ou tel critère pour obtenir l'algorithme opti- 
mal de classification était basée sur la connaissance des probabili- 
tés a priori d'appartenance des résultats à chacune des répartitions, 
la fonction de pertes étant donnée. Les répartitions a posteriori 
(conditionnelles) des valeurs échantillonnées, c'est-à-dire les fonc- 
tions de vraisemblance W, (x,, - . ., x, | sx) étaient supposées 
entièrement connues. Si les paramètres de ces fonctions étaient aléa- 
toires, on supposait connues les densités de probabilité de ces para- 
mètres. 

Les problèmes de la détection et de la discrimination des signaux 
noyés dans un bruit sont des exemples de la synthèse des algorithmes 
optimaux de classification d'après les valeurs échantillonnées du 
processus observé ou une réalisation continue de ce processus. Nous 
avons illustré la solution de ces problèmes sur la base du critère de 
qualité de Bayes. La méthode de Bayes n’est pas toujours applicable 
à la synthèse des algorithmes optimaux de classification à cause des 
difficultés mathématiques qui surgissent. Même mises à part les 
possibilités limitées de l'appareil de programmation mathématique, 
on se heurte parfois à des difficultés de principe. Ceci concerne avant 
tout la description probabiliste de l'effet étudié que le chercheur 
peut ne pas connaître ou en avoir une connaissance incomplète. Ain- 
si, souvent on ne connaît pas les paramètres de la fonction de vrai- 
semblance des valeurs échantillonnées ou la répartition a priori de 
ces para mètres, et dans certains autres cas, la forme de la fonction de 
vraisemblance. Le choix, éventuellement arbitraire, de la fonction 
de pertes impose de son côté une certaine réserve vis-à-vis de la 
méthode de Bayes. 

Pour surmonter la difficulté de l'insuffisance de données a prio- 
ri, on peut rechercher des algorithmes insensibles aux modifications 
des caractéristiques probabilistes des processus aléatoires étudiés. 
28—06N2 
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Certaines possibilités, d’ailleurs déjà partiellement utilisées, appa- 
raissent lors de l’étude du comportement asymptotique des algorith- 
mes optimaux de Bayes, lorsqu'un para mètre quelconque, par exem- 
ple, le rapport signal/bruit, est petit ou augmente indéfiniment. Ces 
algorithmes limites sont dans certaines conditions invariables par 
rapport aux données a priori. 

Les méthodes non paramétriques semblent ouvrir des horizons 
nouveaux. Certaines de ces méthodes ont déjà été mentionnées dans 
les premiers chapitres de ce volume. Citons les méthodes de vérifi- 
cation des hypothèses basées sur l’utilisation des échantillons ordon- 
nés (cf. $ 1.5.3) ou des critères de conformité ($ 2.6). Dans ces mé- 
thodes le niveau de signification reste inchangé, quelle que soit la 
répartition correspondant à l’hypothèse à vérifier. En particulier, 
dans les problèmes de détection des signaux noyés dans des bruits 
les méthodes non paramétriques permettent de trouver les algorith- 
mes assurant la constance de la probabilité de fausse alarme même 
si la répartition des bruits varie. 

La théorie des jeux offre ses moyens de surmonter les difficultés 
liées à l’absence de l'information a priori. Le problème de la classi- 
fication est alors considéré comme un « jeu » avec un adversaire 
(la nature) dont la stratégie est en général inconnue. La stratégie 
du chercheur est basée généralement sur l'hypothèse que la nature 
choisit toujours la répartition des probabilités du processus aléa- 
toire étudié la plus défavorable pour le chercheur. Cette stratégie 
conduit à la règle du minimax pour le choix d’une décision (cf. 
$ 1.1.5). La théorie des décisions de Bayes peut être considérée com- 
me un chapitre spécial de la théorie des jeux pour les cas où le « jeu » 
est joué contre un adversaire « faible », dont la stratégie, au sens pro- 
babiliste, est connue à l'avance du chercheur. 

Ici nous n'allons pas étudier les méthodes de la statistique non 
paramétrique ni celles de la théorie des jeux. Ce présent chapitre est 
consacré à une troisième approche possible des problèmes de classi- 
fication, en supposant que les répartitions des valeurs échantillon- 
nées sont partiellement ou entièrement inconnues. Dans ce cas une 
période d'apprentissage doit précéder à la classification, c’est-à-dire 
la formation à la base des observations des estimations des réparti- 
tions inconnues ou des estimations des paramètres si l’on connaît 
l'allure de la fonction. Ces estimations sont ensuite utilisées pour la 
classification des résultats des observations, en remplaçant les carac- 
téristiques probabilistes réelles inconnues des processus étudiés. 

. [1 y a lieu de distinguer l'apprentissage avec maître donnant une 
suite d'observations étalons dont on connaît la répartition de tous 
les éléments (échantillon d'apprentissage classé), et l’apprentissage 
sans maître (auto-apprentissage) où les estimations mentionnées se 
forment d'après des échantillons d'apprentissage non classés. Par- 
fois on limite d'avance la classe des algorithmes de classification, 
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dont les paramètres sont estimés d’après le critère de qualité choisi 
au cours de l'apprentissage ou de l’auto-apprentissage. 

Dans le dispositif de réception destiné à la classification (par 
exemple, pour la détection ou la discrimination des signaux noyés 
dans un bruit) lorsque les densités de probabilité conditionnelles des 
résultats des observations ne sont pas données, il se produit durant 
l'apprentissage ou l’auto-apprentissage une modification des para- 
mètres ou de la structure de l’algorithme de classification, optimi- 
sant ces algorithmes du point de vue du critère de qualité adopté. 
Ces dispositifs de réception sont dits adaptatifs. 

Parfois, dans les problèmes de classification on utilise non pas 
les observations, mais certaines fonctions (ou fonctionnelles) de ces 
observations appelées signes informatifs de la classe (ou signes de la 
forme). Conformément à cette terminologie, le problème étudié se 
rapporte au problème général de la reconnaissance des images d’après 
des signes informatifs choisis. Le choix des signes informatifs dépend 
du problème étudié. À l'heure actuelle les méthodes générales ne sont 
qu’à l’état d’ébauche. Ilest tout naturel que l’on désire résoudre 
le problème avec un nombre minimal de signes informatifs. Dans 
certains cason utilise les statistiques suffisantes comme signes infor- 
matifs. 

Ainsi, dans le cas le plus général le système réalisant l’algorithme 
de classification se compose de deux dispositifs : d’un récepteur trans- 
formant les résultats des observations en signes informatifs carac- 
térisant l’image, et d’un dispositif de décision rapportant l’ensem- 
ble de signes formé à la sortie à l’une des classes (images). 

Les valeurs échantillonnées x;, . . ., æ, peuvent être considérées 
soit comme les résultats des obvervations directes, soit comme des 
signes informatifs. 


7.2. CLASSIFICATION DANS LE CAS DES RÉPARTITIONS 
NORMALES 


7.2.1. Moyennes inconnues. Considérons d’abord le cas très 
simple où après apprentissage avec maître on a obtenu un échantil- 
lon d’apprentissage classé, x{°?, . .., 295 appartenant à la classe s 
se caractérisant par la densité de probabilité normale unidimension- 
nelle w, (x | so) et x”, . .., x à la classe s, se caractérisant par la 
densité de probabilité normale unidimensionnelle «, (x | s,). Sup- 
posons tout d’abord que seules les moyennes de ces répartitions nor- 
males soient inconnues, les variances étant connues et égales à 0*. 
Estimons les moyennes inconnues à l’aide des estimations du maxi- 
mum de vraisemblance d’après l’échantillon d’apprentissage classé, 
c'est-à-dire 

no n1 


. . 
do=— >» x, ie ro (7.1) 


24* 
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Nous pouvons alors, en utilisant conformément au $ 1.3 ces estima- 
tions au lieu des moyennes inconnues, formuler la règle suivante de 
classification des observations x,, . .., z,, optimale vis-à-vis du 
critère du maximum de vraisemblance: les observations appar- 
tiennent à la classes, :. 


(= » __… PCR 4) (a, — à) >0 (7.2) 


et à la classe s, pour cie inverse de (7.2). 
Ecrivons la formule (7.2) sous la forme d’un système d’inégalités 


n " A 
| ag + a = = " 
— Du — L, > (1.3) 
i--1 
ou 
ie 20 !- a 
do ‘a ô # , 
rs Ti — A Œo- (7.3 ) 


i=f{ 

Ainsi, l'algorithme de classification se réduit au calcul de la 
moyenne arithmétique des valeurs observées et à la comparaison de 
cette moyenne avec un seuil dépendant des échantillons d'apprentissage. 

Le premier membre de l'expression (7.2) est le produit de varia- 
bles aléatoires normales corrélées 


posa do: (7.4) 
= D semis (7.4!) 
Les moyennes et les variances ” ces variables sont 
| a [ Î 1 = 
mi {y} =4a—a0, Ma:{y}= 0° (+): (1.9) 
m{s|Ss1}= LE. == — Mi {2 | So}, (7.6) 
1 1 —— 
Ma{clss So} = 6° (—- ete): (7.6') 


et le coefficient de corrélation est 


1 I 
re {ys}—maiy} mi is} = n1  "o | = 
 VMstu} Mots Vitre ent el 
n ‘ 4ng An: ng 


Rappelons que a, et a, sont les moyennes inconnues des densités de 
probabilité normales w, (x | a) et w, (x | a). Notons que pour nrj — 
— n, les variables y et z ne sont pas corrélées. 

Lorsque la taille des échantillons d'apprentissage no et nr, aug- 


mente indéfiniment, les estimations a, et a, convergent en probabili- 
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té vers les moyennes a, et a, respectivement (car la moyenne d'échan- 
tillon est une estimation consistante de la moyenne d’une réparti- 
tion). De plus, compte tenu du fait que les limites en probabilité des 
sommes, des différences et des produits des variables aléatoires 
sont égales aux sommes, aux différences et aux produits des limi- 
tes, on trouve à partir de (7.3) que lorsque Ja taille des échantillons 
d'apprentissage augmente indéfiniment (la taille z de l'échantillon 
à rapporter à l’une des deux répartitions normales mentionnées 
étant fixée) la règle optimale de classification tend en probabilité 
vers le test de Bayes de vérification d’une hypothèse simple sur la 
moyenne d’une variable aléatoire normale [cf. (1.67)]. Les proba- 
bilités des erreurs de classification tendent alors asymptotiquement 
vers les grandeurs & et Bf données par les formules (1.71) et (1.72). 

L'’algorithme de classification (7.3) peut être généralisé au cas 
multidimensionnel quand il s’agit de rapporter l'échantillon obser- 
vé X à l’une des deux répartitions normales à p dimensions de moyen- 
nes vectorielles inconnues et de matrices de corrélation M, = M: — 
— M données. Supposons qu'à la suite de l'apprentissage avec maître 
on ait obtenu des échantillons classés : x@), ..., x% à partir de la 
première répartition et x{!, . .., x, à partir de la seconde. Chaque 
élément de ces échantillons est un vecteur à p dimensions. Tout com- 
me dans (7.1), estimons des moyennes vectorielles inconnues à l’aide 
des moyennes arithmétiques, soit 

no n1 


= 1 " 1 = 
do = ra x, A! == FA Ki: (7 8) 
1-1 CS | 
L'algorithme de classification généralisant (7.2) implique la compa- 
raison avec un seuil de la grandeur V égale à 


204 "ner © > 
V= (x) M (a —à0). (7.9) 
La répartition de la statistique V est étudiée dans [24]. [45]. 
Dans [32] il a été démontré en particulier, que la statistique 
D 
Von) (ro + ri Anon1) 
peut s’écrire sous la forme d’une combinaison linéaire de deux va- 
riables aléatoires indépendantes #*(p, À,) et #°(p, À) 


Z = (1 + p) x* Gp; À) — (1—0p) x° (p, À), (7.10) 
où #° (p, À) est distribuée suivant une loi du #° non centrée à p degrés 
de liberté, le paramètre de non-centralité étant À et la grandeur p 
donnée par la formule 


n, —nñn0 , 
A ——————————————— ,, 7.10 
É V'(n0-+ 3) (no + n1 + Aron:) 
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Les paramètres de non-centralité sont donnés par les relations 


À er —__— RE : LÉ 7.11 

| nya T Vro = ° en 

À à À 7.14’ 

à ï nos d Free 
où 

d — (a, — a.) M”!{(a, — a). (7.12) 


Le signe supérieur dans l'expression entre crochets correspond au 
cas où M, {X} — a, et le signe inférieur au cas où m, {X} = a. 
Pour ñr5 — coet r; + oo la répartition de V tend vers la loi nor- 


male de paramètres es d, d')sim, {X} =a, et de paramètres 
1 : 
(—-æ, d°) si nm {X} = a. 


7.2.2. Moyennes inconnues (apprentissage sans maître). Repre- 
nons le problème formulé au début du $ 7.2.1, avec cette seule diffé- 
rence que l’échantillon d'apprentissage x,, . .., z, n'est pas classé. 
En supposant que l’apparition de chacune des deux classes s, et 5 
dans chaque observation est a priori équiprobable, on peut considé- 
rer chaque élément de l'échantillon d’apprentissage comme apparte- 


nant à la répartition bimodale commune suivante [27] (cf. proble- 
me 1.5): 


1 -GAr | -G er 
wi(z|ai, SU Er [e 267 Le 25 ], (7.13) 
La moyenne d’une variable aléatoire répartie suivant (7.13) est 
g= 0, (7.14) 


— 


Comme on ne connaît pas à, et &,, on ne connaît pas non plus la gran- 
deur a. Pour l'estimation de la moyenne a de la répartition (7.13) 
on peut prendre la moyenne échantillonnée prise pour tout l'échan- 
tillon d'apprentissage 


a 1 É 
a "ra (7.15) 


En utilisant l'estimation (7.15) au lieu de la moyenne inconnue a 
et en adoptant pour critère le minimum de la probabilité de 
classification erronée (maximum de vraisemblance), on peut formuler 
la règle optimale suivante de classification. L'observation À appar- 
tient à la classe s, si 


X >a, (7.16) 

et à la classe ss pour l'inégalité inverse de (7.16). 
Lorsque n croît indéfiniment la règle formulée de classification 
tend asymptotiquement vers le test de Bayes de vérification de 
l'hypothèse simple sur la moyenne d'une variable aléatoire normale. 
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L'’algorithme de classification (7.16) peut être généralisé au cas 
multidimensionnel, en conservant la symétrie sphérique de la den- 
sité de probabilité, pour le problème de l’appartenance de l’échan- 
tillon observé X à l’une des deux répartitions normales à p dimen- 
sions de moyennes vectorielles a, et a, inconnues et de matrices de 
corrélation M, — M: = 6“I où I est la matrice unité. Dans ce casla 
densité de probabilité multidimensionnelle commune des deux clas- 
ses est 


Lp (N | a, ao) = —— {exp [5 (X—a) (K— a) | + 


+exp[ —-5(X—a0) (Ka) |} = 


= ——exp| -- bb] CXP — (X— a) (X —a) | X 


(2x) “ oP 


b’(X—a) 
EE  ! 


x ch (7.17) 


a "1"; b= (7.17°) 


Le vecteur a est le vecteur des moyennes de la répartition (7.17), 
les éléments de la matrice de corrélation M de cette répartition étant 


© 
My= | . ia) (ea) uw, (Xla, b) dx, ... drp— 
= bib; o"0;;, (7.18) 
où Ô;; = 1 pour i = jet ô;; = 0 pour i # j, 

ay, à = 1, ..., p sont les composantes du vecteur a, 

b;, j = 1, ..., p sont les composantes du vecteur b. 

Quand les moyennes vectorielles a, et a, sont connues, le test 
optimal de Bayes de partition de l’espace des échantillons correspond 
à un hyperplan perpendiculaire à la ligne réunissant les points X — 
— a,et X = a, et divisant cette dernière en deux (cf. problème 1.6). 
L'observation X appartient à l’une ou l’autre classe suivant le signe 
de la grandeur b”’(X — a) [comparer avec (7.9)]. 

Dans le cas où les moyennes vectorielles a et b des deux classes 
sont inconnues, il faut les remplacer par les estimations obtenues 
lors de l’apprentissage. En cas d’auto-apprentissage d’après un échan- 
tillon x,, ..., x, non classé, ces estimations sont obtenues à par- 
tir de la moyenne échantillonnée et de la matrice de corrélation de 
l’échantillon. L’estimation de la moyenne vectorielle de la réparti- 
tion (7.17) est égale à 


ñn 
a | L, 
a—— ÿ X;; (7.19) 


i-=1 
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et on peut trouver les estimations du vecteur b à partir d’un système 
d'équations obtenu par comparaison des grandeurs WM;; de (7.18) 
avec les éléments correspondants de la matrice de corrélation de 
l'échantillon 


= VS (xi— à) (x — à)’. (7.20) 


Notons que le nombre d'équations de ce système sera en général 
supérieur au nombre d’inconnues. Pour la solution de ce système on 
peut utiliser la méthode des moindres carrés. 

Le calcul de l’estimation du vecteur b peut se simplifier si l’on 
tient compte du fait que ce vecteur est le plus grand des vecteurs 
propres de la matrice de corrélation de la répartition (7.17), de plus, 
pour le cas envisagé de symétrie sphérique, tous les nombres caracté- 
ristiques de la matrice de corrélation, à l'exception du plus grand, 
sont égaux entre eux. 

Le problème devient bien beaucoup plus simple lorsque la moyen- 
ne vectorielle pour l’une des classes, par exemple a,;, est donnée 
(comme dans le problème de la détection d'un signal inconnu noyé 
dans un bruit pour a, = 0). On a alors 


Pa Vs, (7.21) 


7.2.3. Moyennes et matrices de corrélation inconnues. Supposons 
d’abord que les moyennes vectorielles des deux répartitions normales 
à p dimensions soient données et égales entre elles a, = a, = a, et 
les matrices de corrélation de ces répartitions M, et M, soient incon- 
nues (Mo 5 M). Ayant à notre disposition des échantillons d'appren- 
tissage classés x!°, ..., x! de la première répartition et x{'?, ... 
..., Xn, de la seconde, on peut écrire les estimations du maximum 
de vraisemblance des matrices inconnues M, et M, Ici. (2.203)} 


M, = + (x!®— a) (x{”— a)", (7.22) 
i=1 
if, — ee (xi? — a) (xÿ7 — a)’. (7.22") 


i= 1 


Pour classer l'observation X on peut utiliser l'algorithme optimal 
de vérification des hypothèses concernant la matrice de corrélation 
de la répartition normale (cf. problème 1.7) en remplaçant les matri- 
ces de corrélation inconnues M, et M, par leurs estimations (7.22) 
et (7.22). On obtient alors la règle suivante de classification : l'ob- 
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servation X appartient à la seconde répartition si on a 


(X — a)" (Ni — Mo) (X—a)>21nc+ in se (7.23) 
En introduisant le changement de variable 
Y=i (x — à), Ÿ° = (ys, - … Yp)s 
où la matrice f est donnée par la relation 
Mi = MfÂ 
et À est une matrice diagonale dont les éléments Re À; sont les 


racines de l’équation | L 
det [M, — AM] —= 0, 


on peut écrire comme suit l'inégalité (7.23): 
P 


i—=1 


P 
F j#>21nc+ 7% In À. (7.24) 
i=1 


La répartition de la statistique dans le premier membre de (7.24), 
ainsi que les probabilités d'erreurs, correspondant à la règle (7.24), 
sont étudiées dans [39]. En particulier, pour ro — © et nr, — oo la 
règle (7.24) tend en probabilité vers le test optimal de vérification des 
hypothèses pour M, et M, données (cf. problème 1.7). 

Quand les moyennes vectorielles des deux répartitions normales 
sont égales entre elles et ne sont pas données, dans (7.23) doit figu- 
rer l'estimation de a faite d’après les échantillons d'apprentissage 


no + na; 
ET" (EE) 


où les estimations à, et à, sont données par (7.8). 

Lorsque les moyennes vectorielles des deux répartitions normales 
ne sont pas égales entre elles (a, = a,) et sont inconnues, et que les 
matrices de corrélation inconnues sont égales entre elles (M, — M, — 
— M) on utilise la statistique de classification (7.9), en portant dans 
son expression au lieu de M son estimation faite d’après les échan- 
tillons d'apprentissage, c'est-à dire [cf. (2.207) 


Am 
a = 


v= (xt) nie Gi — à), (7.26) 
où 
- 1 
M=——— x 


Ron —2 


X D (x{® — a.) (x{” — a ) + S (x — ai) (xf — a)" | (7.27) 


i= 1! 
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et les estimations à, 4, sont données par (7.8). La répartition de la 
statistique (7.26) est étudiée dans [24], 134], [45]. 

7.2.4. Nombre arbitraire de répartitions. Les raisonnements 
suivants permettent d'utiliser l’apprentissage avec maître dans le 


cas de m +- 1 classes s,, . .., s, caractérisées par des densités de 
probabilité à p dimensions (qui ne sont pas obligatoirement norma- 
les) w, (x | So), - - ., Wp (X | Sm)- On connaît la forme de chacune 


des répartitions, dont les paramètres, tous ou en partie, sont incon- 
nus. Si l’on dispose d’un échantillon d'apprentissage classé, c’est-à- 
dire de m + 1 ensembles de vecteurs à p dimensions et l’on sait 
que x, ..., < appartient à la classe s,, k — 0, ..., m, on 
peut d’après les échantillons d'apprentissage trouver les estimations 
des paramètres inconnus des répartitions et en substituant ces esti- 
mations dans les expressions w, (x | s,) trouver les estimations 
w, (x | s,) des fonctions des densités de probabilité (cf. $ 2.6.6). 
Puis, en utilisant le minimum de risque moyen en tant que critère 
de qualité de la classification (pour des probabilités a priori p;, 
k —0,..., m d'appartenance de l'échantillon observé à des répar- 
titions en question et des valeurs de pertes Il;; données) on peut, 
en remplaçant dans le test de Bayes (1.144) les densités de probabi- 
lité w, (x | sx) par leurs estimations, obtenir la règle suivante de 
classification : l'échantillon observé X appartient à la classe s, si 


2 (Mis — Tin) pitp (X | 51) > 0, j=0,...,m; jk. (7.28) 


Supposons, par exemple, que l’on ait m—+1 classes caractérisées 
par des densités de probabilité normales multidimensionnelles, de 
moyennes inconnues a, et de matrices de corrélation M, — 
—M (4 —0,..., m) et que l'apprentissage fournisse des échantil- 
lons de chacune des répartitions. Si l'échantillon x%, ..., x) 
suit une loi normale de paramètres a,, M (#4 — 0, ..., m), on peut 
trouver les estimations du maximum de vraisemblance des paramè- 
tres inconnus, soit : 

! "hr 
2 : 
ane ÿ x), (7.29) 
i=1 
m lp 
. 1 h à R k = 
Mas SJ Six —a)(x — ar), (7.30) 
Non m1) 0 ii 
i= 
et trouver les estimations des densités de probabilité mentionnées 
[cf. (2.201)]: 


= 1 
Up (X| Sa) = 


1 à * ° = 
a CN ———(X—a ° M”! X— a: ‘ 1.31 
(22372 V det M | 7 ( x) o) ) 


k=0, ...,m. 
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En posant Il;; = IT (i = j), Il;; = 0 on peut, à partir de (7.28), 
trouver la règle suivante de classification : l’échantillon observé X 
appartient à la classe s, si 


w , (X | 5x) à ARS ne 4 LEA Pj 
Va = In RE Lx + Gi+à) | M°t (a, —a;)>in —— 


w p (X|Sj) 
j=0, ...,m; jÆk. (7.32) 
Lorsque tous les 7; — oo, la distribution conjointe des statisti- 
ques V,, devient normale (voir [1], page 208). 
Lorsque la forme de la fonction w, (x | s,) est inconnue, on peut 
utiliser les échantillons d'apprentissage pour estimer ces fonctions 
d’après la méthode donnée au $ 2.7.4. En vertu de (2.211) 


TR P 70). 
st > ee. 2 — Ti; = 0) 
Ie DIT 5e A) (53) 
i=1 j:={ 
X— (Tics Z,) xt) — — (rt, RES x), (7.54) 


le noyau XÆ (y) de |” approximation et la grandeur h (n) satisfaisant 
aux conditions (2.211°). 

7.2.5. Relation avec la méthode géométrique. L'hypothèse 
selon laquelle les classes sont caractérisées par des répartitions nor- 
males reste intéressante, même si en réalité les répartitions ne sont 
pas normales. Les règles de classification étudiées ci-dessus, basées 
sur des répartitions normales de paramètres inconnus, restent opti- 
males dans le cas des répartitions qui ne sont pas normales, si l’on 
prend pour critère de qualité le minimum de « distance » entre le 
vecteur des échantillons observés et le vecteur des échantillons d’ap- 
prentissage [4]. On appelle distance du vecteur X jusqu’au vecteur 
de l'échantillon d'apprentissage x{*, . .., x{) la grandeur 


nm; 


D IX — x IE, 
= 


(où || X — x(®) I est la norme du vecteur X — x; Es, c'est-à-dire la 
somme des carrés des composantes de ce vecteur. 

Avant la classification, il est rationnel d'appliquer une transfor- 
mation linéaire afin de comprimer au maximum les échantillons 
d'apprentissage d'une classe donnée. Plus exactement, il faut trou- 
ver la transformation linéaire A; conservant le volume (c’est-à-dire 


telle que son jacobien soit égal à l'unité), rendant minimale la gran- 
deur 


ni 


ñn; 1; 


Em de ) — w(i) 1:59 
ré ET à 2) Il Ai ( (x x If. (1.59) 
k—1 3- 
Il a été montré dans [4] que la a cherchée est une rota- 
tion Ci avec transformation diagonale ultérieure D;. Les colonnes 
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de la matrice C; sont les vecteurs propres de la matrice de corréla- 
tion de l’échantillon M; [cf. (7.22)], les éléments de la matrice diago- 
nale D, étant 


d£i) = (IT co)” Ôujs (7.36) 
[= 1 


où o{5) est l’écart quadratique moyen des vecteurs x () dans la direc- 
tion du l-ième vecteur propre de la matrice C;; p la dimension 
des vecteurs; Ô,; = 1 pour k = j; ôx; — 0 pour É Æ j. 

On peut maintenant formuler la règle de classification de la ma- 
nière suivante: d’après les échantillons d'apprentissage et l’échan- 
tillon X on calcule les grandeurs 

71 


ps ZI: Ci(X— x), i—0,1,...,m, (7.37) 


et l’on choisit le pro petit d’entre eux p; — min pi; l'échantillon 
2 


est alors rapporté à la classe j. 

Comme démontré dans [4], la règle mentionnée est équivalente 
à celle qui est basée sur le calcul du logarithme du rapport de vrai- 
semblance en supposant les répartitions normales, de moyennes 
vectorielles échantillonnées et de matrices de UC de l’échan- 


tillon (avec probabilités a priori p; = p — mi et coûts IT;; = Il). 
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7.3.1. Méthode des probabilités a posteriori. Une autre méthode 
de ti du problème de la classification avec maître suppose que 
les paramètres 6,, ..., 0, donnant les densités de probabilité 
Wp (X |0; si), ...,w, (x ]0,: s») des classes sont des vecteurs 
aléatoires indépendants, de dimension finie, de densités de probabili- 
té a priori données w,, (84), k — 1, ..., m. À partir d'un ensemble 
d'échantillons d'apprentissage X:5nr — (Xi: . - ., Xm) Où les élé- 
ments x, sont des vecteurs lignes x, — (x{*, . .., x(*)) des échan- 
tillons classés appartenant à la classe s, et de l'observation X, on peut, 


en utilisant la formule de Bayes, trouver la probabilité a posteriori 
de la classe s, pour Xappr, X donnés: 


W X 9 X t = 
P {sn| Napprs NX} — nn , (7.38) 


Ÿ PRW (Xappr; X | sx) 
kh=1 


où p4 est la probabilité a priori d'appartenance à la classe s,. Con- 
naissant les grandeurs P {s, | Xappr: X}, # — 1, ..., m on rap- 
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porte l'observation X à la classe s, pour laquelle la probabilité a 
posteriori est maximale, c’est-à-dire 


P {s; | Xapprs X}> P {sx | Xapprs X} (7.39) 


pour tous les À & j. 
Comme 


W (Xaovr: X | Sx) = Wi{X | Xappr: Sn) W (Xappr| She)» (7.40) 


le second facteur dans (7.40) ne dépendant que des échantillons 
d'apprentissage, il découle de (7.38) et (7.39) que l’alworithme de la 
classification se ramène au calcul des grandeurs p,W (X | Xappr: Sk); 
k —=1,..., m et au rangement de X dans la classe s; à laquel- 
le correspond la valeur maximale obtenue. Si les probabilités a 
posterivri p, sont les mêmes, la classification pour un ensemble don- 
né Xap?rr revient à trouver la classe s; pour laquelle l'échantillon 
observé X maximise la fonction de vraisemblance W (X | X:,pr: Su). 
Cette dernière peut servir d'estimation des répartitions inconnues 
des classes pour un ensemble donné d'échantillons d’apprentissa- 
ge Xappr- 

Calculons la fonction W (X | Xappr, 5x) en utilisant la formule 
de la probabilité totale, soit : 


W (X | Xappr: Sn) = f W (X | Xappr: 6, Sh) W (8, | Xapprs Sh) do, = 
d% 


= Ÿ WAR IO, 51) W Gulxn. si)dda, GEO, (741) 
d 


en effet W (6, | Xapprs Sh) — W (6, | Xp: Sx) et W (X | Xapprs 0,, Sx) 
ne dépend pas des échantillons d'apprentissage. 

La densité de probabilité à posteriori du para mètre 6, pour un 
échantillon d'apprentissage donné peut être calculée à partir de la 
formule de Bayes, soit : 

W (8, | Xp, Sh) = 1w (82) W (xx | On. sn) 


Tuw(Ox) Wxni0n, sx) dû8 
Ok 


(7.42) 


Dans la formule (7.42) le second facteur indique comment varie 
la densité de probabilité primitive a priori du para mètreO, au cours 
de l'apprentissage avec maître. 

Notons que dans le cas où les para mètres 60, sont donnés et égaux 
à 0°, leurs densités de probabilités conditionnelles sont des fonctions 
delta 

W (8, | xx, sx) — Ô (0, — 0j) 


et en vertu de (7.41)ona 
W(X ! Xapprs 5h) = W(X 10%, su), 
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comme il fallait s'attendre. Dans ce cas le problème de la classifica- 
tion devient celui de la vérification des hypothèses à alternatives 
multiples que nous avons passé en revue dans le premier chapitre. 

7.3.2. Détection d’un signal inconnu noyé dans un bruit normal. 
A titre d'exemple simple *) illustrant la méthode mentionnée ci- 
dessus nous allons étudier le problème de la détection d’un signal 
inconnu noyé dans un bruit additif normal non corrélé, de moyenne 
nulle et de variance 0*. Le signal est une variable aléatoire normale 
a, indépendante du bruit, dont la répartition a priori est donnée par 
les paramètres (ao, 05). Le problème de la détection d’un signal con- 
siste à rapporter l'observation X soit au mélange du signal et du 
bruit [w, (x | s,)] soit au bruit [w, (x | so)l. 

Si la densité de probabilité a priori du signal ne change pas du- 
rant l’apprentissage, c’est-à-dire si 

W (a|x1, D rer M à 

en vertu de (7.41) les fonctions de vraisemblance W, (X|s), 
W, (X | So) sont +) 


UT Gap 1. (X— ay 
Wi(X|s)=— Re | exp[ —-- |exp| — TE Sr |da= 

D 7 Aa 

| VERS expl — re /r (743) 

X° = or 

W (X 50) == TE xp —5r |: (7.43') 

Le test (règle de classification) basé sur le critère du maximum de 

la probabilité a posteriori est alors un cas particulier des tests de 

Bayes de vérification des hypothèses (de détection d’un signal) 


étudiés dans les chapitres 1 et 5. On prend la décision sur la présence 
du signal si 


W (X1s) > Wi(X | 5), (7.44) 


dans le cas contraire on décide que l'on observe un bruit pur. En 
vertu de (7.43), (7.43”) et (7.44) l'algorithme de classification peut 
être écrit comme suit : l'observation X doit être rapportée au mélan- 
ge du signal et du bruit si 


*) Le pERIèRe général de la discrimination des signaux inconnus (m > 2) 
noyés dans bruits est étudié dans [2]. 

*+) La formule (7.43) découle directement du fait que la somme du signal 
et Ru bruit est dans ce cas répartie normalement, de moyenne a, ct de variance 
O5 + 0°. 
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et doit être rapportée au bruit si 


aX ++ X<c, (7.45) 
où 
= a+ EE In (1+ À). (7.45") 


S'il y a lieu de classer non pas une seule observation mais un 
échantillon (X,, ..., Xw), en supposant toujours le signal et le 
bruit indépendants, il faut remplacer dans (7.45) et (7.45’) X et X? 
par les sommes des valeurs observées et des carrés de ces valeurs 
[cf. (14.127) et (5.182)1. Le dispositif optimal de détection d’un si- 
gnal se compose d’un filtre adapté et d’un récepteur énergétique (cf. 
(5.87)]. Les valeurs de sortie sont sommées, la somme obtenue étant 
ensuite comparée avec un seuil. 

Considérons maintenant le cas où les données a priori sur le si- 
gnal sont précisées pendant le processus d'apprentissage avec maitre. 
Soit l'échantillon z;, . .., x, appartenant au mélange d’un signal 
et d’un bruit. La densité de probabilité a posteriori du signal est 
donnée par la formule (2.168) 


Wi(alzis ..., En S)= LE (1 +) x 
cf (+ fe (EE 
+ k=1 


(7.46) 


donc, tout comme la densité de probabilité a priori, elle est normale, 
avec cette seule différence que les paramètres de la densité de pro- 
babilité a posteriori dépendent de l'échantillon d'apprentissage : 


1 '< 2 + 
Aün=m; (a}=—(=y + Er) + (7.41) 
1+ noS Rk=1 
= M, {a} = ———. (7.48) 
nn + — 


Où 


Par conséquent, la fonction de vraisemblance W, (X |zx,, ... 
-.. Tn: 4) Suit une loi normale de paramètres a, et 0%, de plus, la 
règle de classification de l’observation X en présence de l’échantil- 
lon d'apprentissage zx,, . .., x, s'obtient à partir de (7.45) et (7.45°) 
en remplaçant a, par la valeur de la moyenne conditionnelle a, 
donnée par (7.47) et 05 par la variance conditionnelle 6 donnée 
par (7.48). Par conséquent, la structure du dispositif optimal de 
détection reste inchangé, seuls changent lors de l'apprentissage les 
paramètres des blocs constitutifs. 
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Pour nr —+ co on obtient à partir de (7.47) et (7.48) 


n 
1 ; 
An Ÿ Ti, Où —0, 
1=1 


et, par conséquent, lorsque la taille de l'échantillon d'apprentissage 
augmente indéfiniment, le dispositif optimal de détection ressemble 
à un filtre linéaire adapté (le second terme du premier membre 
de (7.45) tendra vers zéro). 

L'exemple étudié peut être généralisé au cas des valeurs corrélées 
du signal et du bruit également corrélé, en supposant toujours 
que le bruit est additif et indépendant du signal. Supposons que la 
moyenne vectorielle du bruit soit nulle et que sa matrice de corré- 
lation soit égale à M. La répartition multidimensionnelle a priori 
du signal est caractérisée par la moyenne vectorielle a, et la matrice 
de corrélation M,. La répartition a priori du mélange additif du si- 
gnal et du bruit qui sont indépendants est également normale de 
moyenne vectorielle a, et de matrice de corrélation M + M,. Soit 
Xp, --. Xn un échantillon vectoriel d'apprentissage appartenant 
au mélange du signal et du bruit. La répartition a posteriori du si- 
gnal après apprentissage est également normale, mais caractérisée 
par une moyenne vectorielle et une matrice de corrélation (condi- 
tionnelles) un peu différentes. Elles peuvent être obtenues à partir 
de la relation de récurrence suivante, vraie pour la moyenne vecto- 
rielle a, et la matrice de corrélation M, conditionnelles de la loi 
normale [1]: 


a, = MM, + M)'asu + Mu (Mon + MX, (7.49) 
M, = M(M,_ + M)-1M,._.. (7.50) 
En vertu de (7.49) et (7.50) on a 


M 1 


An — — (M++) 


n 


Mi-11 < _ 
80 + Mo (Mo+ —) — Six, (7.51) 


M M \-1 re 
Ma = (Mo+ Mo. (7.52) 


Les formules (7.51) et (7.52) deviennent particulièrement simples 
lorsque M — AM, où À est un nombre positif. On a alors 


n 
À n 1 
MS TEr Tir 2% (59) 
ES - 
Mh = rRarape M. (7.54) 


Dans le cas unidimensionnel, (7.53) et (7.54) deviennent (7.47) et 
(7.48) respectivement avec À = 0*/0;. 
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La fonction de vraisemblance W (X | Xappr ; S,) est dans le cas 
général une densité de probabilité multidimensionnelle normale de 
moyenne vectorielle a, et de fonction de corrélation M, données 
respectivement par les formules (7.51) et (7.52). Soulignons que seules 
les moyennes conditionnelles dépendent des échantillons d’appren- 
tissage (plus exactement, de la moyenne échantillonnée), la matrice 
de corrélation conditionnelle ne dépendant que de la taille n de 
l'échantillon d'apprentissage. 

7.3.3. Triage simple et méthode de découvertes. Nous allons main- 
tenant passer à l'étude de la détection d’un signal inconnu noyé 
dans un bruit lors de l’apprentissage sans maître, lorsque l’échan- 
tillon d'apprentissage n’est pas classé. Ceci signifie que l’on ne sait 
pas d'avance si la valeur échantillonnée donnée appartient au mé- 
lange d’un signal et d’un bruit ou seulement à un bruit. Dans la 
construction de la règle de classification de l'observation X, d’après 
le critère du maximum de probabilité a posteriori on se heurte tout 
de suite à la difficulté de calculer la densité de probabilité a poste- 
riori W, (a | Xappr ; S&;) du paramètre pour un échantillon non classé 
Xappr — (Lis + - +; Zn). 

11 semble que dans ce cas le plus simple soit de composer toutes 
les suites possibles z;, . . ., x, dont chacun des termes x; peut appar- 
tenir soit au mélange d’un signal et d’un bruit (état s,) soit seulement 
au bruit (état ss). Pour une suite quelconque S%? d'états, lors de 
l'apprentissage on a 


SÙ) = (sn), ..., stn)), 


où chacun des éléments s0), j — 1, ..., n peut être soit s,, soit so, 
la densité de probabilité a posteriori W (a| Xappr; S%) peut être 
calculée par la méthode du $ 7.3.2, c’est-à-dire pour l'apprentissage 
avec maître. Le nombre des différentes suites pour l'échantillon 
d'apprentissage de dimension nr est alors égal à 2°. On a alors 


on 
> 


W;(a] Xappr) W\ (a] Xappr ; 7) P Se [Xappr}s (7-99) 


où P{SM|Xappr} est la probabilité pour que dans l'échantillon 
d'apprentissage, la suite d’états S% puisse être réalisée. (On peut 
facilement calculer cette probabilité en supposant, par exemple, 
que l'apparition ou la non-apparition du signal lors de l’appren- 
tissage soient indépendantes et que la probabilité a priori d'appari- 
tion du signal dans une observation quelconque soit connue.) 

En vertu de (7.55) le dispositif optimal de détection lors de l’auto- 
apprentissage sur un échantillon de taille n doit se composer de 2” 
dispositifs, identiques à ceux qui ont été utilisés lors de l’appren- 
tissage avec maître (filtre adapté FA et récepteur énergétique RE). 
Les signaux de sortie des dispositifs mentionnés sont multipliés par 
les coefficients de pondération P{S®]|X,,,-} puis les produits 
25—0682 
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sont sommés. Sur la figure 7.1 est représenté le schéma de principe 
d’un tel dispositif pour le cas où l’échantillon d'apprentissage est 
formé de deux éléments. Pour r — 3 le dispositif serait deux fois 
plus compliqué. Pour un échantillon de taille de l’ordre de quelques 
dizaines. la réalisation pratique d’un tel dispositif est plus que pro- 
blématique. Il est évident que lorsque l'échantillon d'apprentissage 
est de taille z trop petite, les caractéristiques de classification sont 
mauvaises, et au fur et à mesure de l’augmentation de 7 elles tendent 
vers celles des algorithmes de statistique complètement connue 
des classes reconnaissables. Cependant, le dispositif optimal pour 
apprentissage sans maître devient de plus en plus compliqué, ceci à 
raison de 2”. 

Il a été montré dans [44] que pour trouver la densité de probabi- 
lité a posteriori du paramètre inconnu de la classe, on peut indiquer 


P{S9,50} 


Fig. 7.1. Schéma d'un dispositif adaptatif de dé- 
tection d’un signal inconnu travaillant en auto-ap- 
prentissage 


l'algorithme de calcul fini de classification ne dépendant pas de la 
taille de l'échantillon d'apprentissage si et seulement si les obser- 
vations d'apprentissage z;. . .., z, sont caractérisées par une sta- 
tistique suffisante de dimension finie. Pour le problème étudié ici 
de la détection d’un signal inconnu, la densité de probabilité d'un 
élément quelconque de l'échantillon d'apprentissage (sans maître) 
est [cf. (7.13)]: . s 
Zi —a)" — 1 = 

wi (zila) — - = exp — A |+ VE exp | --+ | , (7.96) 
où p est la probabilité de présence du signal. Dans [11] il est démon- 
tré que pour les densités de probabilité de la forme (7.56) il n’existe 
pas de statistique suffisante de dimension finie. 

Ceci veut dire que, avec augmentation de la taille de l’échan- 
tillon d’apprentissage, le dispositif optimal de détection dans le 
cas d’auto-apprentissage doit devenir infiniment compliqué. 
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Nous allons étudier une possibikté de simplifier l’algorithme de 
classification dans le cas d’auto-apprentissage au prix d’une perte 
d'optimalité. Comme le dispositif optimal de détection d’un signal 
inconnu lors de l'apprentissage avec maître a une structure suffi- 
samment simple, et que le dispositif analogue pour l’auto-appren- 
tissage se complique beaucoup, dans ce dernier cas il semble naturel 
de deviner la suite des états (s, étant le mélange du signalet du bruit, 
So, le bruit pur) en passant d’un élément de l'échantillon d'appren- 
tissage à l’autre, puis d'utiliser ce que l’on a deviné comme si c'était 
réellement exact (comme si c'était le « maître ») *). La structure du 
dispositif de détection devient alors identique à celle du dispositif 
optimal de détection avec maître, les résultats des découvertes lors 
de l’auto-apprentissage sont alors utilisés pour modifier les para- 
mètres de ce dispositif conformément aux formules du $ 7.3.2. Mais 
dans ce cas des erreurs sont inévitables et le dispositif de détection 
n'est plus optimal. Cependant, comme mentionné dans [44], pour 
qu'un tel dispositif de détection donne des résultats acceptables, il 
n’est pas indispensable que la suite devinée d'états soit exacte. Lors- 
que l’échantillon d'apprentissage est de taille z importante, il existe 
un sous-ensemble de l’ensemble de toutes les 2" suites possibles 
d'états doué des deux propriétés suivantes : 1) la probabilité de pré- 
sence de la suite réelle des états dans ce sous-ensemble est voisine de 
l'unité ; 2) si la suite devinée est un élément de ce sous-ensemble, le 
dispositif de détection utilisant la méthode heuristique devient à 
la limite, pour rz — co, optimal. Malheureusement, on n’a pas jus- 
qu’à présent découvert de méthodes efficaces de recherche des sous- 
ensembles doués des propriétés mentionnées. 

Une variante de la méthode heuristique de découverte d’une suite 
d'états dans l'échantillon d'apprentissage est basée sur l’hypothèse 
selon laquelle la suite des décisions lors de l’auto-apprentissage est 
une suite de découvertes [41]. D'après cette méthode, dès le début. 
on attribue des valeurs aléatoires aux parametres du dispositif de 
détection du signal inconnu. Chaque fois que le dispositif délivre 
une décision sur la présence d’un signal, les paramètres du dispositif 
changent conformément au signal reçu à ce même instant. Une métho- 
de quelque peu modifiée a été utilisée dans [291]. 

7.3.4. Méthode adaptative de Bayes. L'application de la méthode 
générale de Bayes dont il était question dans les paragraphes pré- 
cédents, exige la connaissance des répartitions a priori des para mè- 
tres inconnus. Au $ 7.3.1 de ce chapitre nous avons étudié le cas où 
la forme de la répartition initiale a priori du paramètre de la classe 
changeait au cours de l'apprentissage avec maître. Est-il possible 
d'utiliser dans les problèmes de classification l'apprentissage avec 


*) C'est pourquoi la méthode où il y a lieu de deviner est parfois appelée 
apprentissage avec maître réel, c’est-à-dire avec un maître pouvant se tromper. 
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maître afin d’être en mesure d'utiliser la méthode de Bayes sans ré- 
partition initiale a priori? La réponse affirmative à cette question 
est basée sur un théorème établi par S. Bernstein et R. Mises [14]. 
Donnons-en l'essentiel. Soit x, une valeur échantillonnée apparte- 
nant à une répartition de paramètre Ÿ inconnu (aléatoire). La den- 
sité de probabilité a posteriori de ce paramètre est 


(9 12) = 20 (9) — ME 
{ w1(0) Wi(x110) dd 


(7.57) 


où w, (0) est la densité de probabilité a priori du para mètre @. Si 
l'on extrait la valeur échantillonnée suivante z>, la fonction 
W, (Ô | x,) peut être utilisée comme une nouvelle loi a priori pour le 
calcul de la densité de probabilité a posteriori, soit : 


Wi(d li, 2) = Wi(9]zx:) — Wi (ze | 0) 
Ÿ Wi(0 [| x1) Wi (ra | 0) d0 

= un (Ÿ) — 
{wi (0) Wi(z11 8) Wa (x2 | 0) dd 


—oœo 


Wi(z110)Wi(r2l 0) (7.58) 


D'une manière analogue pour un échantillon de r éléments indé- 
pendants x, ..., I, on a 


Wars ce, cn) = 0 (0) Pere en TO 2 (7,59) 
\ wi (0) Wan (r1, ..., Tn | Ÿ) dd 


Wa (ti +. 2n| 9) = U W(zil d). 


Selon le théorème mentionné ci-dessus, si la densité de pro- 
babilité a priori W, (®) du paramètre Ÿ est continue, au fur et à 
mesure de l'augmentation de la taille de l'échantillon la densité de 
probabilité a posteriori W, (Ÿ | x,, . . ., x,) cesse de dépendre de la 
loi a priori. Ainsi, si seulement une densité de probabilité du para- 
mètre a priori continue existe, pour un 7 suffisamment grand, il 
est plus ou moins indifférent quelle fonction w, (8) sera utilisée dans 
la formule (7.59). Ce théorème limite paraît avoir été à la base de la 
méthode adaptative de Bayes *) de classification proposée par 
Robbins [14], [16]. 

Soit (x1, 01), . . ., (Zn, Ÿ,) une suite de couples de variables aléa- 
toires indépendantes, tous les Ô,, i = 1, ..., n étant soumis à la 


*) Souvent la méthode de découverte ici est appelée méthode empirique 
de Bayes. 
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même loi a priori (inconnue) w, (Ÿ) et tous les z; à la loi 
W, (x) = | Wi(x|0)u1(8)d®. 


Pour des z; discrets on a 


P{xi=r}— | P{xi=x|t}u(8)dt. 


—œo 


Si l’on adopte la décision y selon laquelle l’observation X appar- 
tient à la loi W, (x | Ÿ), des pertes apparaissent, celles-ci étant don- 
nées par une fonction non négative II (y, 8). Comme on ne connaît 
pas wi (Ÿ), l'algorithme du choix de la décision est établi d’après 
l'échantillon d'apprentissage z,, . .., x, (les variables Ÿ,, . .., 0, 
restent toujours inconnues). Ïl est souhaitable qu'avec l’augmenta- 
tion de la taille de l'échantillon d'apprentissage cet algorithme 
s'approche de celui de Bayes quand w, (8) est donné. L'algorithme 
satisfaisant à cette condition est appelé asymptotiquement optimal. 
Dans [17] on peut trouver une méthode de construction des algori- 
thmes asymptotiquement optimaux. Nous allons nous limiter dans 
l'exposé de cette méthode au cas du problème à deux alternatives de 
la théorie des décisions statistiques avec loi de répartition a priori 
inconnue du paramètre Ô, donnant la statistique des observations 
(sous sa forme générale, le problème est posé dans [17]). 

Introduisons la notation 


A (2) — | CT (vis 9) — IT (vo, 0)1 WA (x 18) w, (8) dû (7.60) 


et supposons que la fonction A, (X) de l’observation X, dont la forme 
dépend de l'échantillon d'apprentissage z,, ..., x,, Converge en 
probabilité vers A (X) pour 7 —+ co. Dans ce cas on aura l'algorithme 
optimal asymptotique suivant: la décision y, est adoptée si 


An (X) 2 0, (7.61) 


et la décision y, pour l'inégalité inverse de (7.61). (Dans le 
cas des répartitions discrètes il y a lieu de remplacer W, (x | Ÿ) 
par P {x; — x |Ÿ} dans (7.60).) 

Considérons un exemple illustrant la possibilité de trouver une 
suite de fonctions A, (x) convergeant en probabilité vers A (x). 
On vérifie l’hypothèse unilatérale 77, selon laquelle le paramètre 8 
de la loi de Poisson d’une variable aléatoire n'est pas supérieur à la 
valeur donnée 6,, c'est-à-dire # < Ÿ. Soit Yo la décision correspon- 
dant à l'acceptation de l'hypothèse H,, et y: la décision correspon- 
dant à son rejet. Introduisons la fonction de pertes IT (y;, 9) sous la 
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forme suivante : 


O, Ù < Vo; 
I (Yo Ô) Te { D — Vo D > Vo (7.62) 
Vo—Ÿ, Ÿ LV , 
TI (44, = | . 0. (7.62') 


Pour la loi de Poisson d’une variable aléatoire discrète on a 
P{r=ml8}= Te, 80, z=0, 1, 2, (7.63) 


Portant (7.63) dans (7.60) au lieu de W, (x | 8) on obtient compte 
tenu de (7.62) et (7.62) 


A (2) = | (89— 8) eur (9) 48 = 8F1 (2) — (x +1) Fi(x + 1). 


(7.64) 
où 
Fi(a)= | etui (8) 28 = P{xi= 2). (7.65) 
0 
Introduisons le compteur de coincidences 
{ en 7.66 
v(z, y) = 0, zÆY (2. ) 


et considérons la fonction suivante de x dépendant de l'échantillon 
d'apprentissage z;, . .., Th: 


Un (T) = 15 V(x, ri). (7.67) 


Per 


La somme dans le second membre de (7.67) est égale au nombre des 
valeurs échantillonnées d'apprentissage qui sont exactement égales 
à x, par conséquent, u, (x) est la répartition empirique de x conver- 
geant en probabilité pour rz + oo vers F; (x) [cf. (7.65)]. La fonction 


An (x) = Dour (x) — (x + 1) us (x + 1) (7.68) 
tend en probabilité vers À (x) définie conformément à (7.64). On en 
déduit l'algorithme optimal asymptotique suivant: à la base de 
l'échantillon d'apprentissage z,, . .., x, on adopte la décision ÿ 
(acceptation de l’hypothèse Æ,) si 


LSy(X41, 21) 0, (7.69) 
1—1 

et la décision y, (rejet de l'hypothèse F,) pour l'inégalité inverse 

de (7.69). 
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7.4. APPROXIMATION STOCHASTIQUE 


7.4.1. Les zéros et les extréma de la fonction de régression. 
Supposons qu'à chaque valeur du paramètre Ÿ corresponde une va- 
riable aléatoire x dont la fonction de répartition est F, (x | Ô) avec 
m, {rx | 9} — m(Ô). Proposons-nous de trouver la solution de 
l'équation de régression 

m (9) = 0 (7.70) 
en supposant que celle-ci ait une seule racine et que les fonctions 
Fi (x| Ô) et m (8) soient données. Robbins et Monroe [13] ont pro- 
posé une méthode itérative appelée approximation stochastique per- 
mettant de construire les estimations de la racine cherchée à l’aide 
de l’échantillon d'apprentissage x,, . .., x,, pour chaque élément 
z, duquel on a | 

: mi {zx [0k} = m (03). 
L'estimation Ÿ, +, de la racine cherchée peut être trouvée à partir 


de l'estimation Ÿ, d’après la valeur échantillonnée d'apprentissage 
Zn, Ceci à l’aide de la relation 


Dos — 0, ar, nr >, (7.71) 


Ÿ, = Ÿ, étant une constante quelconque. Si les coefficients a, satis- 
font aux conditions 


(se 00 


N'oan=o, NY a <o, (7.72) 


n=1 n=Î 
l'estimation Ÿ,+, tend en probabilité, avec augmentation infinie de 
la taille r de l’échantillon, vers la racine de l’équation (7.70). No- 


je , 1 sn 
tons, par exemple, que la série harmonique (a, ——) satisfait aux 


conditions (7.72). 

On peut utiliser la même méthode itérative pour trouver l’extré- 
mum de la fonction unimodale de régression m (8). Cette méthode, 
proposée par Kiffer et Volfovitz [13], permet de trouver l'estimation 
V,+1 de la valeur extrémale de la fonction de régression d’après 
l'estimation précédente Ÿ, ainsi que les valeurs échantillonnées z:, 
et LTon-1: 

a a Ton —Lon- 
Vntt = Ün + An LE , n > 1, (7.73) 
n 
les échantillons x,, et z2, _; étant indépendants et correspondant aux 
valeurs Ÿ, + c, et Ÿ, — c, du paramètre. Comme précédemment, 
la valeur initiale Ÿ, est arbitraire. Si les coefficients a, et c, satis- 
font aux conditions 


a > 0,c, > 0, c, — 0 pour nr —+ oo, (7.74) 


> An — ©, ba AnCn < D, >» (2) <o, (7.74) 


n=i ni n=1 
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avec augmentation illimitée de la taille n de l’échantillon d’appren- 


tissage l'estimation Ÿ,+, calculée conformément à (7.73) tend en 
probabilité vers la valeur extrémale de la fonction de régression. 
Si l'on impose des conditions supplémentaires aux fonctions 


m (0), les estimations Ÿ;., données par (7.71) et (7.73) peuvent con- 
verger en moyenne quadratique respectivement vers zéro et vers 
l'extrémum de la fonction de régression. Les méthodes examinées 
peuvent être généralisées au cas multidimensionnel (voir [13]). 

Tout ce qui a été dit se rapporte également à l'estimation du zéro 
ou de l’extrémum de la fonction #», {f (x) | Ÿ} où f (x) est une fonc- 
tion donnée de la variable aléatoire x dont la loi de répartition est 
donnée par F, (x | Ÿ). Dans ce cas dans les formules (7.71) et (7.73) 
il y a lieu de remplacer les valeurs échantillonnées d'apprentissage 
Ta par f (za). 

L'inconvénient des méthodes stochastiques d’approximation est 
qu’à l’heure actuelle il n'existe pas de considérations générales, plus 
ou moins fondées, permettant de choisir les coefficients a, et c, 
dans (7.71) et (7.73), pour assurer une convergence rapide des itéra- 
tions, ni de moyens permettant d'apprécier la précision des estima- 
tions et d'arrêter l’itération à un certain moment. En revanche, les 
itérations dans les méthodes d’approximation stochastique sont rela- 
tivement simples et faciles à réaliser. 

7.4.2. Estimation des paramètres et des fonctions de répartition. 
L’approximation stochastique peut être utilisée pour estimer les 
paramètres et les fonctions de répartition inconnus des classes [20]. 
À titre d'exemple particulièrement simple examinons l'estimation 
d’une moyenne inconnue. Supposons que le paramètre dans (7.70) 
soit une moyenne inconnue. En posant alors f (x) = x — Ÿ, on 
obtient l'équation de régression 


m; {x — Ÿo | Ÿ } = 0, 
et à partir de (7.71) on trouve la relation de récurrence pour l’esti- 
mation de la moyenne inconnue (racine de l'équation de régression) 


Dati cn (2 + An (En — Ôn) Ùn (1 — a) + aytn. (7.45 
Pour a, — _ , on a à partir de (7.795) 


n 
æ | = mm} 
Un D ri, (7.75°) 

i=1 
c’est-à-dire que l'estimation de la moyenne est égale à la moyenne 
arithmétique des valeurs échantillonnées d'apprentissage. Soit 0° 
la variance inconnue de la variable aléatoire z de moyenne nulle, 
en posant f (x) — z° — 0% on obtient alors l'équation de régression: 

mi {z° — 05 | o*} = 0 

et l'algorithme de l’estimation de la variance correspondant s'écrit 
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comme suit : 
Ohity — Où + An (ri — 0%) — 0% (1 — a,) + a,xr. (7.76) 


Pour a, = on a à partir de (7.76) 


n 
Le , 
oi Va. (7.76) 

i—1 
On peut également utiliser l’approximation stochastique pour 
estimer la densité de probabilité inconnue w, (x) d’après les échan- 
tillons d'apprentissage caractérisés par cette densité, en la déve- 
loppant en série suivant les fonctions orthogonales Q, (x) [cf. (2.120), 
tome I]. L’estimation de la densité de probabilité inconnue se réduit 

alors à l'estimation des coefficients du développement 


cn = mi {Qr (x)} (7.77) 
ce qu’on obtient à partir de la relation 
Us = 9 + a [Q, (e.) — I, k = 1. . (7.78) 
Pour a} — 1 on a 
cm, = 1 me S Qn (x). (7.78) 


i=! 


7.4.3. Discrimination de deux signaux inconnus. Pour illustrer 
la procédure itérative (7.73) nous allons étudier le problème de la 
discrimination de deux signaux s, et s, dont les densités de probabili- 
té w, (x | so) et w, (x | s;) sont inconnues. L'’algorithme du choix 
d’une décision consiste à comparer l’observation À avec un seuil Ÿ. 
Si À << Ÿ l'observation est rapportée au signal s, et si À ZŸ, au 
signal s,. En utilisant les échantillons d'apprentissage on choisit le 
seuil Ÿ de façon à minimiser le risque moyen. 

En vertu de (1.18) le risque moyen est égal dans ce cas à 


R (9) — | CUAVAE: | So) + plluw, (x | S1)] dx + 
Ô 


Ô 
= | [40081 (x | So) -+ Piotr (x | S1)] dx, (7.49) 


—©œo 


où p et q sont les probabilités a priori d'apparition des signaux s, 
et So, et [li; (ë, j = 0, 1) les éléments de la matrice de coût. 
Introduisons la fonction de décision (cf. $ 1.2.1) 


D (x, = | ee (7.80) 


1, x>%, 
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l'expression du risque moyen s’écrit alors 
R (8) — | {D (x, 8) [got (x | so) + plie (x | 1) + 


+ [1—O(z, 0)] [gloot: (x | So) + PEiowi (x s1)1} dr. (7.81) 


En vertu de (7.81), le risque moyen R (Ÿ) est une fonction de ré- 
gression pour une variable aléatoire discrète pouvant prendre quatre 
valeurs 

y =f (2) = Ii à, j =0, 1, (7.82) 


ici z est une valeur échantillonnée extraite de la répartition du si- 
gnal s; et 
O (x, Ô) — j. (7.82) 


R (9) = m, {f (x) 18}, (7.83) 


et le problème de la détermination du seuil optimal Ü* pour la clas- 
sification de l'observation revient au calcul du minimum de la fonc- 
tion de régression (7.83), 
les lois de répartition des 
signaux étant inconnues. 
Laissant de côté l'étude 
de la fonction de régression 
admettant plusieurs extré- 
ma, limitons-nous au cas 
d'un minimum unique, 
comme on peut le voirsur la 
figure 7.2 (pour Lio =1lo = 
Fig. 7.2. Fonction du risque moyen = 4 et Ils = I, = 0 
Pour estimer le seuil opti- 
mal Ÿ* on peut utiliser l'algorithme (7.73) 


ï 4 Yon — Yon- 
Ün+4 = Ùn + An EEE ’ (7.54) 


n 


Ainsi, 


OÙ Yen —= Il;; lorsque x, est la valeur échantillonnée extraite de la 
répartition du signal s; et ® (ze, Ÿh + cn) = j et Yen 1 = Il;; lors- 
que c’est z»,_, qui appartient à la répartition du signal s; et 
D(Zon -1 Ur — Cn) = j. . 

Lors du premier pas l'estimation Ÿ, est une constante arbitraire 
et les coefficients a, et c, satisfont aux conditions (7.74), (7.74). 

Lorsque la taille xz des échantillons d'apprentissage augmente 
indéfiniment, l'estimation Ÿ,+, tend en probabilité vers le seuil 
optimal 8*, pour lequel le risque moyen R (Ÿ*) est minimal. En 
adoptant des hypothèses supplémentaires sur la fonction À (8) on 


peut également assurer la convergence en moyenne quadratique 
(voir [261). 


ANNEXES 


ANNEXE I 


Loi normale 


1 S 
FO=E | < 2 dt. 
p(z)=F" (x) — RE e + 


0,0 0,50000 0,39894 2,0 0,97725 0,05399 
0,1 0,53983 0,39695 2,1 0,98214 0,04398 
0,2 0,57926 0,39104 2,2 0,98610 0,03547 
0,3 0,61791 0,39139 2,3 0,98928 0,02833 
0,4 0,65542 0,36827 2,4 0,99180 0,02239 
0,5 0,69146 0,35207 2,9 0,99379 0,01753 
0,6 0,72579 0,33322 2,6 0,99534 0,01358 
0,7 0,75804 0,31225 2,7 0,99653 0,01042 
0,8 0,78814 0,28969 2,8 0,99744 0,00792 
0,9 0,81594 0,26609 2,9 0,99813 0,00595 
1,0 0,84134 0,24197 3,0 0,99865 0, 3 
1,1 0,86433 0,21785 3,1 0,99903 0,00327 
1,2 0,88493 0,19419 3,2 0,99931 0,00238 
1,3 0,90320 0,17137 3,3 0,99952 0,00172 
1,4 0,91924 0,14973 3,4 0,99966 0,00123 
1,9 0,93319 0,12952 3,9 0,99977 0,00087 
1,6 0,94520 0,11092 3,6 0,99984 0,00061 
1,7 0,95543 0,09405 3,7 0,99989 0,00042 
1,8 0,96407 0,07895 3,8 0,99993 0,00029 
1,9 0,97128 0,06562 3,9 0,99995 0,00020 
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fe 


u2+v02— 2ruv 2ruv 


K(r,h) = 24-79 qu dv 
h 
h 
0 0,5 1,0 1,5 2,0 
. 
0 0,250000 0,095195 0,025171 0,004463 0,000518 
0,1 0,265942 0,107758S 0,031320 0,006334 0.000872 
0,2 0,282047 0,120715 0,038069 0,008611 0,001370 
0,3 0,298493 0,134179 0,045485 0,011330 0,002047 
0,4 0,315495 0,148306 0,053563 0,014542 0,002921 
0,5 0,333333 0,163320 0,062514 0,018323 0,004053 
0,6 0,352416 0,179560 0,075526 0,022794 0,005500 
0,7 0,373407 0,197602 0,083979 0,028166 0,007362 
0,8 0,397583 0,218566 0,097637 0,034856 0,009825 
0,9 0,428214 0,245325 0,115490 0,043948 0,013361 
1,0 0,500000 0,308538 0,158655 0,066807 0,022750 
ANNEXE II 
Calcul des intégrales 
Soit une intégrale du type 
t 0 {tx 1 
K — | | e 2? dxdy, (1) 
— 00 — 00 


p (x, y) = aur* + 2as2ty + ae + Last + 202 + ass (2) 


est une forme quadratique définie positive. 

L'expression (2) est l’équation d’une surface du second degré, 
d’un ellipsoïde. Par rotation des axes et translation de l'origine des 
coordonnées on peut mettre cette équation sous la forme canonique 


D (u, uv) = Au + An + c, (3) 


qui en plus du terme constant ne contient que les carrés des varia- 
bles u et v. 


Avec ce changement de variables l'intégrale (1) s'écrit 


K= [fe 


0 —® 


— Œ(u, 
29% 9 Du dv, 


où D est le jacobien de la transformation. 
Comme cette transformation des coordonnées se réduit à une 
translation de l’origine et à une rotation des axes, on a D — 1. 
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Ainsi 
ce Au ss Dove 
= (Aston +c) — ( —-— — — 
K= {| Pa M'dudv=e 7 |e 7 du e ”“ dv. 
O0 0 — 00 —- 
Mais 
œ% 2.22 S— 
SET x 
je ; &=y #, 
— 
on a 
2 
= ——-e “. (4) 
Vite 


Ainsi le calcul de l'intégrale (1) revient à trouver les grandeurs 
A1, A et c. Dans la théorie des formes quadratiques on montre que À, 
et À, sont les racines de l’équation caractéristique 


M — LA + I = 0, (5) 


dont les coefficients s'expriment en fonction des coefficients de la 
forme quadratique (2) 


Ti = Gi + ar To — Gyit2e — di, (6) 

et la constante c est donnée par la formule 
I = 
C= (7) 


T3—=|@ye Goo Gos|. (S) 


lis dos ss 


La formule (4) ne contient que le produit À,À: des racines de 
l'équation (5) égal au terme constant J:. L'intégrale cherchée est donc 


= e 21, (9) 


Nous allons utiliser la formule (9) pour le calcul de la fonction 
caractéristique bidimensionnelle de la loi normale. En faisant préa- 
lablement le changement de variables d'intégration z = 
Q 


et y— =— 


, on peut alors écrire 6, (v,, v.) comme suit 
1 


M ee. 


etlaivitaste) se 


00 


x | [exp tt His ivsosy |dr dy. (10) 


0 —®o 
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L'intégrale dans (10) est un cas particulier de (1) pour 


| r 
Mi es pen Me js: Œi3——ÎOii, Aos— —ÎOoUs, 33 —0. 
On obtient à partir de (6) et (8) 
n 1 . r® _ 1 pi 2r0 10200 + OFut + Givi 
SO M—r2)}2  (1—7r2) rt 1—7r2 ° 
On a alors 
l | 
6, Us, Vs) = ———— pi(aivi-t ave) X 
2 (1, v2) 2x V/1—7r2 


X 2nV1—rexp [ _ _. (oiv? + 2roioevi0a + O3v5) | , 


ce qui en fait ne diffère en rien de (3.123) pour r = 2. 

Soit maintenant une intégrale du type 

K mn (4) = \ \ urur exp [—(u? + u5 + 2u,u: cos «)] du, du:. (11) 
0 0 

Pour r > m l'intégrale (11) peut être obtenue par dérivation 
successive par rapport au paramètre de l'intégrale 

Kor (&) = { | uï exp [—(u5 + ui + 2uu, cos «)l du, du2. (12) 

0 0 
Pour le calcul de l’intégrale (12) il faut écrire l’exposant de 


l'exponentielle sous la forme d’un carré et faire le changement de 
variables d'intégration 


VU, = Uy + U2 COSA, Ur —= Uz2 Sin &. 
On obtient alors 


Kor (&) = re” (it) dus due 


sin"+la 
0 vicig a 
et, en passant aux coordonnées polaires, on trouve 


œ © 
- 1 . 
Rr(a)==r { | (o sin 0)" e-r°p dp dô. 
0 0 
Les intégrales sur p et Ÿ se séparent. Compte tenu de 


[pes dp—ir (+ 1), 


r(2+) 


on obtient 


Kor (&) = | sin” Ÿ dû. (13) 


ANNEXES 399 


En vertu de (13) pourr —=0Oona., 


Ko (&) = 2sin a”? (14) 
: 1 dKoo(æ) 1—aciga 
Au (a) = 2sina da  Asin4 ‘ (15) 
Pour k = 0 l'intégrale (10.86) est 


D, V1 _—r° —(t2+22— 2rvite) 
T0) = ————_——— | vuvse 17 * AU do — 
q{ ) 270, 1= 2/2 ] 172 1 

__ 4D:e (1— r2?) . 


Ds (== =) ctg @ 
— ro, (1— R2)°/2 


Ki (a) — Daw, (RE sin?&œ ‘” (16) 
avec 


COS Œ — —r. (17) 


La substitution de (17) dans (16) conduit à (10.89). 
On peut écrire (8.69) sous une forme analogue après les substitu- 
tions 


rn =u0V2(1— KR), re = us0 V2 (1 — F5), 


o0 Co 
W, e (04, Vo, r) = | \ nue Mie), Qu, — 
Ù 0 
= 1— R21— acte « 
ms Au(G)=s es 


, (18) 
avec de plus 
—Ccos a —= y —= Re cos (92 — Ÿ,) -- R, cos (9: — Ÿ,). (19) 
En portant (19) dans (18) on aboutit à (8.70). 
ANNEXE IIT 


Fonction delta 


Par définition, la fonction delta Ô (£ — ts) de tout paramètre 
réel t, est nulle pour t{ Æ t, et illimitée pour &t — to 


N, 5 Los 
tt (1) 
L'intégrale de cette fonction est égale à 

1; a lo € b, 
b 

1 
Î 8@—#0) di —4 5: lo=a ou tÿ—b, (2) 
: 0, t>a bb. 


400 ANNEXES 


En toute rigueur la fonction delta peut être obtenue comme 
la fonction limite d'une fa mille de fonctions continues uniparamétri- 
ques *). On peut donner de nombreux exemples de telles fa milles. 
Citons à titre d'exemple une famille de densités de probabilité de la 
loi normale de moyenne a constante et de moyenne quadratique © 
variable. 

Soit une autre famille 


À 
p (£, À) ETC ETÉ 

qui pour À —+ oo donne la fonction delta. Notre troisième exemple 
sera un ensemble s ({, t) d’impulsions rectangulaires d’aire unité, 

> 1 

de durée + et de hauteur — 
: to LE LL lo TT 
Te 9 0 01 %» 
s(£, T) -{ \ (3) 

0, 1<to, 1 to+Tt. 


En faisant tendre vers zéro la durée de l'impulsion, on obtient 
à la limite une fonction delta, soit 


Ô(t — to) = lim s(t, T). (4) 


La convolution de la fonction delta avec une fonction quelconque 
f (t), limitée et continue au point to, est douée de la propriété remar- 
quable suivante : 


À Î (to): a < lo < D, 

1 
À F4) 8(—t0) dt — 21h = où -=b, (5) 
l 0, lo La, to > 0. 


Si au point £ == to la fonction f (t) a une discontinuité (de pre- 
mière espèce), on a 


b 
| f (#2) O(t— to) dt = [f (to+)—f (to), a Lloyd, (5°) 


*) La fonction delta est un cxemple des fonctions généralisées, définies 
comme les limites des suites de fonctions continues. On peut trouver la 
théorie de ces fonctions dans l'ouvrage de I. Gelfand et G. Schilov. Les 
fonctions généralisées et leurs propriétés. Physmathguiz, Moscou, 1958. 
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où f (to +) et f (to —) sont les valeurs de f (t) à droite et à gauche 
du point de coupure. 

La propriété exprimée par la formule (5) peut être appelée pro- 
priété de filtrage de la fonction delta. En effet, la fonction delta agit 
comme un filtre; en multipliant une fonction arbitraire f ({) par 
Ô (£ — t,) et en intégrant sur t on choisit une des valeurs de cette 
fonction, soit f (to), c’est-à-dire la valeur qui correspond au zéro de 
l'argument de la fonction delta (£ — to — 0). Pour démontrer la 
formule (5) il suffit de substituer sous le signe de l'intégrale à 


Ô (t —t,) une fonction quelconque qui en est l’approximation et 
de passer ensuite à la limite. 


Notons que la fonction delta Ô (rx — xs) a la dimension de la 
grandeur 7 


Cherchons maintenant le spectre (transformée de Fourier) de la 
fonction delta. En utilisant la propriété de filtrage on a 
| Ô(£— 10) e-tot dt —e- it, (G) 


—00 


Si {to — 0, en vertu de (6) le spectre de Ô (t) est uniforme pour 
toutes les fréquences d'intensité unité. Le spectre de la demi-somme 


de deux fonctions delta L{S (t+ to) + Ô (t—to)] en vertu de (6) est 
égal à + (gite + e—iufo) — cos Wto. 


Par transformation de Fourier inverse on obtient 


= { eivt do — — r | cos ot dw = Ô (t), (7) 


+ | eiwi cos wo dw = + | cos wt cos op do = + [6 (1 + to) + 6 (t—#5)]. 
00 (1) 


(7) 
Par suite de la symétrie de l'intégrale de Fourier les variables t 
et w dans les formules (6) et (7) peuvent être interchangées. 

Les dérivées des fonctions delta se définissent comme les limites 
des dérivées correspondantes des fonctions d'approximation. Ainsi, 
par exemple, en tant que fonction d’approximation on utilise des 
densités de probabilité de la loi normale pour o —+ 0, la n-ième 
dérivée de la fonction delta se on comme suit 


d 2 
ô(m (em —— 6 V2x “dm e 202f- (8) 


t Tout comme la fonction delta, ses dérivées sont égales à zéro 
pour { 0. L'’allure des dérivées pour { = 0 est compliquée. Ainsi, 
26—0682 
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par exemple, la dérivée première de la fonction delta 


est égale à + co lorsqu'on s'approche de l’origine des coordonnées 
à gauche (£ — O0 —) et à — œ lorsqu'on s'approche à droite (£ — 0 +). 
Au voisinage de t — 0, ô’(t) se conduit à peu près comme t”!. 

Les dérivées de la fonction delta possèdent également les pro- 
priétés de filtrage. La convolution d’une dérivée d'ordre nr de la 
fonction delta avec une fonction quelconque dont la dérivée d'ordre 
n est continue au point é, est égale à 


À F () 8m (8 — à) dt = (—1) 6 JU) (ko). (9) 


Si la dérivée f{") ({) a une discontinuité (de première espèce) au 
point £o, On a 


Frost) de Ut (++) (9) 


Cherchons maintenant le spectre (transformée de Fourier) de la 
dérivée d’une fonction delta. En utilisant (9) on obtient 


[ Ôt (4— 19) er tot dt — ( 


— oo 


Si t, = 0, en vertu de (10) le spectre de 6 (+) est égal à (— io). 


d'e 10 


et) ae (0 


ANNEXE IV 


Systèmes orthogonaux de fonctions 


Deux fonctions f (x) et g (x) définies sur l'intervalle (a, b) sont 
dites orthogonales par rapport à la fonction de pondération œ (x) 
si l'on a ; 


Î œ Ce) f (e) 8 (x) dr = 0. (1) 


a 


Le système de fonctions f, (x), f2 (x), . .- .. f, (x) est dit orthogonal 
par rapport au poids (x) si deux fonctions quelconques du système 
sont orthogonales, c'est-à-dire si 


b 
À æ (x) fi Ge) fs (dr = 0, ie j. (2) 
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La quantité | 


| o@ A @) = a (3) 
a 
est appelée norme de la fonction f; (x) par rapport au poids œ (x). 
Si pour toute fonction satisfaisant à la condition (2) on a a; — 1, 
le système de fonctions est dit orthonormé. 

A titre d'exemple particulièrement simple de fonctions ortho- 
gonales on peut citer les fonctions trigonométriques sin #x, cos nx, 
où x est un nombre entier (y compris 7 = 0 pour cos nzx) sur l’inter- 
valle (—x, x) par rapport au poids p (x) = 1. 

Dans les applications on rencontre souvent des systèmes de 
polynômes orthogonaux. Ci-dessous nous donnons les propriétés 
essentielles des polynômes orthogonaux utilisés dans l'ouvrage. 

Les polynômes d'Hermite H, (x) sont dénifis par les relations 
suivantes *) | 

x x 


Ha(z)=(—1) 67 (6 7), n=0, 1,2, .... (4) 


drn 


En intégrant une seconde fois par parties on peut facilement montrer 
que 


œo xt —— 
| Han (x) Hn (2) cd Tas= in Écrire (5) 
se 0, msEn , 
les polynômes d’Hermite sont donc un système de polynômes ortho- 


x2 
gonaux par rapport au poidse * sur l’intervaile (— oc, co). 
En vertu de la définition (4) H, (x) est un polynôme de degré 
n, contenant pour » pair seulement des puissances paires de x, pour n 
impair seulement des puissances impaires de z. Trois polynômes 
d'Hermite successifs quelconques sont liés par la relation de récurren- 
ce suivante 
Hh +1 (x) = zH} (x) = nH; -; (x). (6) 
Les cinq premiers polynômes sont 
Ho(z) =1, Hi(z) =zx, Hz) =: —1, 
H3(z) = 2 — 3x, H, (x) = 24 — Gx° + 3. 


11 est facile d'obtenir l'expression des polynômes d'Hermite de 
degré plus élevé à l’aide de la formule (6). 
t2 
En développant en série de Taylor la fonction e Z * on 
*) Parfois on définit les polynômes d'Hermite comme suit: 
x2 dn +2 


Ha (r)= (in (eo *). 


11 est évident que cette forme s'obtient à partir de (4) en remplaçant x par 
zV2 et en introduisant le facteur on/2, 


26* 
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obtient 


Pour z = 0, on trouve à Ps de (7), en développant en série 
t2 


la fonction e ? et en comparant les coefficients des mêmes puissan- 
ces de t dans les premier et second membres : 


Han (0) = (—1 (On —1)!!, Ha (0) = 0, (8) 


où (27 — 1)!! est le produit des nombres entiers impairs jusqu’à 
2n — 1 inclus. 


Les polynômes de Laguerre L® (x) sont définis par les relations 
suivantes *) 


—1n sn sis 
LO (x) = D 7-06 x Tae”*), (9) 
n=0,1,2, ...,a>—1, z>0. 
En intégrant par parties on obtient 


oo n+a 
F(a+1), m=—n, 
| L® (x) L (2) Fear | d | Su. (10) 
0 0, m=ÆEn, 
où F (x) est la fonction gamma. 

En vertu de (10) les polynômes de Laguerre sont un système de 
polynômes orthogonaux par rapport au poids z*e* sur l'intervalle 
{0, oo). 

Trois polynômes successifs quelconques de Laguerre sont reliés 
par la fonction de récurrence suivante: 
nL® (2) = (—zx + 2n + « — 1) L®, (x) — 

—(n+a—-1)LP2(r, n>2. 
Les quatre premiers polynômes de Laguerre sont 
Lo (zx) =1, LA (x) =1+a—-xz, 
2L( (x) = (a + 1) (œ + 2) — 2x (x + 2) + x°, 
8L@ (x) = (œ + 1) (&œ + 2) (x + 3) — 3z (@œ + 2) («a +3) + 
+ 3x? (a + 3) — x3, 
et sous forme générale 


LA (x) — s an 


R=0 


(11) 


*) 9 (zx) est souvent désigné simplement L, (x). 
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De la même manière qu’en (7) on a le développement 


xt © 
d—2) He 1-2 » L® (x) é, lt|<1, (12) 
n=0 
qui pour z = 0 donne 
) n+a 
LE (0)= ( Ê | (13) 


Les polynômes de Tchébychev (de première espèce) T, (x) sont donnés 
par les relations 


Th(z)=cosn arc COS z = + [+ V1) (zx —Vz—1)"], 
n—0, 1, 2, .… (14) 
Il est facile de montrer que l’on a 


+ +, m=n%0, 

dr 
| Tm(x) no) À x, m=n=0, (15) 
Es 0, m#n. 


En vertu de (15) les polynômes de Tchébychev (de première espèce) 
sont un système de polynômes orthogonaux par rapport au poids 


VI sur l'intervalle (—1, +1). 


Trois polynômes successifs quelconques de Tchébychev sont 
liés par la relation de récurrence suivante 


Tnt (x) — 22Tn (x) + Tn (a) =0, n21. (16) 
Les cinq premiers polynômes de Tchébychev sont 

Tofz) =1, T,(xz) =zx, T;(x) = 2r° — 1, 

Tax) = 4x3 — 3x, Ti (x) — 8x — 8x° + 1. 


En vertu de la définition (14), pour r quelconque, on a 


Th (4) =1, Ta (—1) = (—1}, (17) 
Tan (0) = (—1)", Tan+s (0) = 0. (17°) 
ANNEXE V 


Fonction hypergéométrique 


L'expression générale de la fonction hypergéo métrique est donnée 
par la série suivante 


rFs(@, ..) Cr, Vi» ... Ys: T)— 


_ TG. Tr) D rat). lat) 2 
V (&1)... Er Pit)... PF(ysin) n!l° 


406 ANNEXES 


Pour r = 2, s = 1 on obtient la série hypergéométrique habituelle 


el (a, B, y; r)=1+ z + TE GHNPEED 1) 7? Eu 
te . 
7 +0 (+2 +: (2) 


Pour & = $ = y = 1 la série (2) devient une progression géométrique 
de raison zx. 

Dans cet ouvrage on utilise souvent un autre cas particulier de la 
fonction (1), la fonction hypergéométrique dégénérée (confluente) 
pour r = s = 1 


DL ga lai) # | a(a+t)(a+2) 2 
AGREE EEE 27 orne ste À 


Pour x >> 0 cette fonction est liée à sa valeur pour z << 0 par la 
relation 


Fa, y: 2) =" 1Fi (y — @, y: —2). (3) 


Pour des grandes valeurs négatives de l’argument x on a le dé- 
veloppement asymptotique suivant: 


T(y) 1 œ (æ— +0 
P(y—&) z —[1+ BE 


— 2 
se a (æœ +1) (a — y+1)(œ v+ ET Al (5) 


9r2 


ia, y; —z) — 


Si «a = —n (n un entier positif), 4#, (—n, y; x) devient un 
polynôme de puissance r par rapport à x. Pour a =n, y—=m 
(nr, m entiers), ,F, (n, m, x) s'exprime par des polynômes et des 


fonctions exponentielles de l'argument x. Si « = , ŸY=M, 


Fi (=, m ; x) se définit par des exponentielles et des fonctions 


de Bessel de l’argument x. Ainsi, par exemple, 
F(h ti -e)=én(s). o 
Fi(—5,1; —:) ce 2[({+2 (5)+22(5)], (6 


AE 2-6 (sn (9) © 


L'intégrale assez répandue du produit de fonctions polynomiale, 
de Bessel et exponentielle s'exprime à l'aide d'une fonction 
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hypergéométrique dégénérée 


T u—1 _B212 a (7) (5) + v . La F 
je J,(at)e-B = (vdi 5), (7) 
a>0,B>0,u+v>0. 


En remplaçant & par ia [compte tenu de (4)] on obtient à partir 
de (7) l'expression de l'intégrale contenant une fonction de Bessel 
de l’argument imaginaire: 


2H LT, (at) e- Ft di — 


U 
(ee) (SE) 
Ne IV RE 1, vi: 7' 
+ or am a a). 0 
On peut également exprimer à l’aide de la fonction hypergéo- 
métrique les dérivées et l'intégrale de la fonction 


x2 n—1 
Pa=rzse ?. pPG)e27 TT Fi ( 


2 


où F (x) est la fonction de Laplace. 


ANNEXE VI 
Transformation de Hilbert et signal analytique 


Soit S (&) 1 une fonction réelle appartenant à la classe LP (— oo, co), 
c'est-à-dire j [S (£) [” dt < ©. Pour p > 1 on peut définir une 


fonction o (6) “dite conjuguée de S (t), ceci à l’aide de la transforma- 
tion intégrale de Hilbert 


00 


1 S 
c(9=—+ | Dar, (1) 
avec TT 
1 
S(b=+ | 1 (2) 


—œ 
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[pour { — + on prend les valeurs principales (au sens de Cauchy) 
des intégrales]. 

Si F, (wo) est le spectre (transformée de Fourier) de la fonction 
S (t), le spectre F, (w) de la fonction conjuguée est 


Fs (©) = | o(t)e-iot dt — + ( S (t) ( Je dt dt. 


— 1 


En remplaçant t par t — u les variables d'intégration se séparent. 


On a alors Fo(@)= Fi (0) | —du= —F; OA SE qu. 


0 0 


eivu 


sin ou 


Mais comme | du = sign w, où sign © indique le signe de 
U 
la variable w,ona 
Fs (©) = — iF, (w) sign ©. (3) 


En vertu de (3) on a | F (o) | = | F, (o) | et arg F5 (w) — 
— arg F, (o) ++ . Par exemple, la fonction conjuguée de S (4) — 


— À, cos (@ot + p) est © (£) = A, sin (@ot + op). 

Formons sur l’axe réel £ la fonction complexe Z (t) = S (t) + 
+ io (£). On peut montrer que pour que la fonction complexe Z (t) 
soit la limite, pour u —+ 0, de la fonction analytique Z (£ + iu), 
il faut et il suffit que l’une des deux conditions suivantes soit rem- 
plie : 1) les fonctions S (t) et © (t) sont conjuguées ; 2) la transformée 
de Fourier F, (w) de Z (t) est identiquement nulle pour © < 0. 
Si l’une des conditions est remplie, l’autre l’est aussi. 

La fonction complexe Z ({) de la variable réelle £ satisfaisant 
à l’une des conditions mentionnées est appelée signal analytique 
correspondant à S (4). Désignons par a (t) et © (t) le module et 
l'argument d’un signal analytique, c’est-à-dire posons 


Z (t) = a (t) et), (4) 
On a alors 
S (t) = ReZ(t) = a (t) cos D (1), (5) 
Go (t) = ImZ(t) = a (t) sin D (6), (6) 
d’où 
a (+) = VS?) + 0° (6), (7) 
O(t)=arctg Te (8) 


Les fonctions a (t) et ® (t) sont appelées enveloppe et phase de 
S (t). Comme à une fonction S (t) donnée, correspond d’une manière 
univoque le signal analytique Z (t), et par conséquent, l’enveloppe 
a (t) = | Z (€) | et la phase O (4) = arg Z (t), la représentation de la 
fonction S (£) sous la forme (5), compte tenu de (6) à (8), est univoque. 
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p 
= 507 ‘gp> 220 ‘2-07 — = 04807 : 0 
w 
(M 
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ANNEXE X 
Ellipsoïde de corrélation 


Soit un ensemble de n variables aléatoires E,, . .., E,. Désignons 
par & la valeur moyenne de la variable aléatoire E; et par r;;— 
— M, {(E; — a;) (ëj — a;)} la covariation des variables aléatoires 
&1 et Ëj. La matrice M formée par les éléments r;; (à, j = 1, ..., n) 
représente la matrice corrélationnelle de l’ensemble des variables 
aléatoires envisagées. 

L'ellipsoïide d’équation 


n n D; 
> > (4 — a) (—a;)=1, D>0, (1) 


i=1 j=1 


est appelé ellipsoide de corrélation. Dans l'équation (1) D;; sont les 
cofacteurs des éléments a;; dans la matrice M, et D son déterminant. 
Par une transformation linéaire (orthogonale) des variables, la 
forme quadratique dans le premier membre de (1) devient une somme 
de carrés, soit 


= 1. (2) 


À, sont ici les nombres caractéristiques de la matrice de corrélation, 
déterminés par les racines de l'équation 


[M — All = 0, 


où I est la matrice unité. 

L'équation (2) est un ellipsoïide à x dimensions de demi-axes 
ÿ À, auquel se ramène l'ellipsoïde (1) par rotation (transformation 
orthogonale). Le volume de l’ellipsoïde envisagé est égal à 


ñn 


VV. (3) 
r (5H) 


Ainsi, le carré du volume de l’ellipsoïde est proportionnel à la valeur 
du déterminant D, souvent appelée variance généralisée. Pour n = 1 
cette grandeur est égale à 


D = m; {(E — a}°} = 0°, 


c’est-à-dire qu'ellecoïncide avec la variance habituelle d’une variable 
aléatoire, et pour nr = 20ona 


2 
0  rO10s 


— — 005 (1 —r°), 


ea 


rO102 OC; 


ANNEXES 415 


td 


où 0°, 0; et r sont les variances et le coefficient de corrélation des 


deux variables aléatoires. 

Si l'on étale l’ellipsoïde de corrélation (1) de V nr + 2 fois on 
obtient l’ellipsoide des variances. Pour un ensemble de variables 
aléatoires normalement distribuées la densité de probabilité sur 
l'ellipsoïde des variances est constante. Pour une loi de distribution 
arbitraire l'ellipsoïde de corrélation a cette particularité que l’en- 
semble des variables aléatoires uniformément réparties dans un domai- 
ne de l’espace à nr dimensions, limité par cet ellipsoïde, a les mêmes 
premier et second moments (covariation) que l’ensemble donné des 
variables aléatoires. 


ANNEXE XI 
Régression 


Soient E et n des grandeurs aléatoires liées caractérisées par la 
densité de probabilité mutuelle conjointe w, (x, y). La moyenne 
conditionnelle n pour ë = x [voir (2.108), t. I] considérée comme 
une fonction de la variable x détermine la courbe de régression, soit 


ÎÜ yws(r,y)dy © 
22 ma (ne) = —= | ya (y| x) dy. (1) 
Î w(z, y)dy  -® 


I] est facile de montrer (voir le problème 2.6, t. I) que 
parmi toutes les fonctions possibles g (x), l’écart quadratique 
m; {In — g (E)l*} est minimal pour 


ga) =m{nlz} (2) 


Dans certains cas on envisage l’approximation de n au moyen 
de Ë d’après le critère de minimum du carré moyen de l'écart 
de n par rapport à f (£) pour une classe donnée de fonctions 
g (x), définies à des paramètres inconnus près. Par exemple, si 
g (x) = a;x + a, on cherche des valeurs àa,, a, pour lesquelles 
Mi {(n — a E — a2)°} sont minimales. La droite z = a,z + a, est 
dans ce cas appelée droite de régression quadratique moyenne. 
Un cas plus général est celui d’une régression quadratique moyenne 
polynomiale quand 


4 (x) — a, x" + ax" "| + . + Zn +1: 


Dans le cas d’une régression quadratique moyenne linéaire, le mini- 
mum de m, {(n — a Ë — a:)*} correspond à 


M: 
m=rV Gr em) (Et), (3) 
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où rest le coefficient de corrélation des grandeurs aléatoires Ë et n. 
La droite de régression quadratique moyenne est alors donnée par 
l'équation 
M 
= ma fn} + Le ms (SEUL. (4) 

Si £ et n sont des grandeurs aléatoires normales liées, le second 
membre de (4) coïncide exactement avec la moyenne conditionnelle 
de n pour E = zx (voir t. I, page 78). Par conséquent, la droite de 
régression quadratique moyenne pour des grandeurs aléatoires norma- 
les coïncide avec la courbe de régression. Autrement dit, l’approxi- 
mation linéaire de n par E suivant le critère de minimum du carré 
moyen de l'erreur est la meilleure. 

Les notions introduites ci-dessus peuvent être généralisées à un 
ensemble fini quelconque de grandeurs aléatoires interdépendantes 
E, ..., &. La valeur moyenne conditionnelle de E, pour E; = zx;, 
i — 2, ..., n est égale à 


\ TiWn (Zt, ...) Tn) dr: 


mi (El Ze, ..) Ln} = = ——————. (5) 
\ Un (Z1, ..) Zn) dr; 
Le lieu géométrique des points (m; {.}, z2, . .., æ,) pour toutes 


les valeurs x, . . ., x, est l’hypersurface de régression. On peut définir 
l'hyperplan de la régression quadratique moyenne 


Z1 = M {Ei} + 2, Ou: [Ti — ms {i}]. (6) 
Les grandeurs p,; sont données par le système d'équations linéaires 
D bips; = bas, i=2, cs M (7) 
J3=2 
où 
bij mi {bibs}, (7°) 


de sorte qu'en désignant par D;; les cofacteurs dans la matrice 
| bi; lona 


_ Di 
Pa —= Di, ° (8) 
On peut montrer que l’hypersurface de régression pour un ensemble 


de grandeurs aléatoires normalement distribuées coïncide avec l’hy- 
perplan de la régression quadratique moyenne. 
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NOTATIONS UTILISÉES 


A, ÀAo — amplitude d'un signal 
A(w) — spectre d'amplitude 
A(t) — composante en quadrature d’un processus 
a — valeur moyenne d'une variable aléatoire, amplitude 
d’un signal déterministe 
B (t, y) — fonction de corrélation d’un processus aléatoire 
B (rt) — fonction de corrélation d’un processus stationnaire au 
sens général 
Bzn (t, y) — fonction de corrélation mutuelle des processus aléatoi- 
res E (4) et n(t) 
B;:n (7) — fonction de corrélation mutuelle de deux processus 
(£) et n (4) stationnairement liés au sens général 
bn — biais d’une estimation 
C (1) — Se Dans en quadrature d’un processus 
c, c* — seui 
C (w) — réponse en fréquence (caractéristique) d'un système 
linéaire 
D — déterminant de la matrice de corrélation 
dy, dr — PRES des caractéristiques de détection d'un 
signa 
E (t) — enveloppe d’un processus aléatoire 
E — énergie d’un signal 
ce — efficacité relative d’une estimation 
l'y (z1 +, zx) — fonction de répartition à W dimensions 
F (x) — intégrale de Laplace 
F (w) — spectre énergétique d’un processus aléatoire, station- 
naire au sens général 
Frn (&) — spectre énergétique mutuel des processus aléatoires 
(4) et n (t) stationnairement liés au sens général 
1 {1} — critère de qualité 
G — domaine de l’espace des échantillons 
H — hypothese 
H (s) — entropie | 
H (s | y) — entropie conditionnelle 
h ({, y, u) — résolvante 
h (u, v) — fonction de transition impulsionnelle d'un système 
linéaire, fonction de pondération 
h* (u, v) — fonction de transition impulsionnelle d’un système 
linéaire optimal 
1h — information de Fisher 
Î — quantité d’information 
J, — fonction de Bessel de 1r€ espèce d'ordre v 
1, — fonction de Bessel de 1r€ espèce d'ordre v de l’argu- 
ment imaginaire 
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K (u, v) — noyau d’une forme intégrale quadratique, caractéris- 
tiques d’un filtre du second degré 
k* (iw) — fonction de transfert d’un système linéaire optimal 
k (iw) — fonction de transfert d’un système linéaire 
k (z:) — fonction de répartition de Kolmogorov 
K — seuil 
L — fonction de vraisemblance 
L — rapport de vraisemblance 
3? ___ moment deux de l'amplitude aléatoire d’un signal 
M}, — moment d'ordre # centré 
M: — variance 
# — variance échantillonnée 
my, — moment d'ordre k 
m1 — Valeur moyenne 
m* — moyenne échantillonnée 
m — nombre d'états, nombre de domaines disjoints de 
l'espace des échantillons 
N — dimension d’une loi multidimensionnelle 
No — densité spectrale (intensité) d’un bruit blanc 
n — taille d’un échantillon 
P — probabilité d’un événement 
p — PRORQEEE a priori 
Il — fonction de pertes 
Qn(z) — polynôme formé par un ensemble de polynômes 
orthogonaux 
q — probabilité a priori 
r (t) — réalisation de l'enveloppe 
r (9) — fonction condionnelle de risque 
R — risque moyen 
R* — risque de Bayes 
R (x) — coefficient de corrélation 
S$ — espace des paramètres 
s (t) — processus déterministe (signal) 
s — paramètre d'une distribution 
Sh — états possibles 
Sn (7) — densité de probabilité de Student 
T — durée d’une observation 
t — coordonnée temporelle, erreur normée d’une estima- 
tion 
U — nombre d’inversions 
u (t) — composante en quadrature d’un signal déterministe 
V (t) — solution d’une équation intégrale non homogène 
linéaire 
v (t) — composante en quadrature d'un signal déterministe 
Wi(z), wi (x), Wa (x) — densités de probabilité unidimensionnelles d’une 
variable aléatoire 
ww (Zi, - -., zN) — densité de probabilité multidimensionnelle d'un 
ensemble de variables aléatoires 
W (xs, « -., zy) — fonction de vraisemblance d’un échantillon de taille nr 
X — vecteur des valeurs échantillonnées 
r, — quantile 
z; — valeur échantillonnée 
z (t) — réalisation d’un processus aléatoire 
z (t) — enveloppe complexe 
Zr (iw) — spectre d’une réalisation tronquée d’un processus 
aléatoire 
z — variable complexe 
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z — grandeur imaginaire conjuguée de = 
a — probabilité conditionnelle d'erreur de première espèce, 
probabilité conditionnelle de fausse alarme 
B — probabilité conditionnelle d'erreur de seconde espèce, 
robabilité conditionnelle de perte d'un signal 
T (x) — Enction gamma complète 
T (x, y) — fonction gamma incomplète 
y — décision, coefficient de confiance 
Ô (z) — fonction delta 
Ô (y | x) — strategie 
À — largeur de bande 
e — longueur relative de l'intervalle de confiance 
e® — erreur quadratique moyenne 
À — fonction de vraisemblance centrée 
À, — nombre caractéristique d’une équation intégrale 
linéaire 
u — rapport des probabilités a priori; paramètre d'un 
rocessus de Markov 
Y — fonction d'incertitude 
4 (t) — réalisation de la phase 
— variable aléatoire 
E (£) — processus aléatoire 
n — variable aléatoire 
n (4) — processus aléatoire 
x? — variable aléatoire distribuée suivant la loi du %? 
Im — partie imaginaire 
Re — partie réelle 
(5) — nombre de combinaisons de n éléments k à k 


€ — symbole désignant l'appartenance à un ensemble 
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